이전 수업에 이어서 DVC 환경 설정을 해보겠다 !
DVC (data version control)
git과 연동하면서 데이터 버전을 관리
대부분의 스토리지와 호환가능, 깃과 유사한 인터페이스
이 과정을 자동화 해두어 쉽게 사용할 수 있음
1. 파이썬 설치 & git 설치
https://docs.aws.amazon.com/ko_kr/parallelcluster/latest/ug/install-linux-python.html
$ sudo apt-get install python3
$ sudo apt-get install python3-pip
$ sudo apt install git
이 두가지 코드로 python 을 설치한다.
pip 를 설치하는 이유는 DVC를 pip 를 통해 설치하기 때문이다.
이후에 깃도 설치를 해준다 !
2. DVC (data version control) 설치 & 초기화
dvc 또한 설치해준다 !
이후 git과 DVC를 초기화 --> 그럼 DVC 와 관련된 환경도 초기화가 된다.
3. 예제 데이터 생성 후 DVC 버전 tracking
1) dvc 로 버전 tracking 할 data 를 생성
### data 디렉토리에 demo.txt 파일 생성
mkdir data
cd data
vi demo.txt ### 간단 텍스트 입력
cat demo.txt ### 위에서 입력한 텍스트 출력
2) 방금 생성한 데이터를 dvc 로 tracking
cd ..
dvc add data/demo.txt
# To track the changes with git, run:
git add data/demo.txt.dvc data/.gitignore
3) dvc add 에 의해 자동 생성된 파일들을 확인
cd data
ls
# demo.txt.dvc 파일이 자동 생성된 것을 확인
cat demo.txt.dvc
# demo.txt 파일의 메타정보를 가진 파일입니다.
# git 에서는 demo.txt 파일이 아닌, demo.txt.dvc 파일만 관리하게 됩니다.
4) git commit 을 수행
git commit -m "Add demo.txt.dvc"
- .dvc 파일은 git push 를 수행하여, git repository 에 저장
4. 구글 드라이브 폴더와 연동
1) 구글 드라이브에 dvc-tutorial 폴더 생성
2) 구글 드라이브 폴더 링크가지고 와서 dvc remote storage 로 설정
+) 만약 이때 구글 아이디 설정하는 과정이 없었더라면 아래와 같이 입력해서 연동시킬 구글 계정 설정
3) 앞전에 만들었던 dvc/config 파일을 git commit + DVC push
- 데이터를 구글 드라이브 폴더 (remote storage) 에 업로드 한 것
필수 링크: https://bit.ly/37BpXiC
17일차 학습 인증샷 :
오늘은 데이터 관리 오픈소스 툴인 DVC 실습을 진행했다. 우분투 환경에서 파이썬, 깃 설치 후 DVC 설치를 했다. 특히 구글 드라이브와 연동이 되어서 커밋이 되는게 신기했다. 이외에도 s3, g3, azure 로도 remote storage를 세팅할 수 있다는데 ! 조금 더 살펴봐야겠다~!
'Study > MLops' 카테고리의 다른 글
[MLops] 220211 패스트캠퍼스 챌린지 19일차 - Model management (0) | 2022.02.11 |
---|---|
[MLops] 220210 패스트캠퍼스 챌린지 18일차 - DVC 실습(2) (0) | 2022.02.10 |
[MLops] 220208 패스트캠퍼스 챌린지 16일차 - DVC 실습 (0) | 2022.02.08 |
[MLops] 220207 패스트캠퍼스 챌린지 15일차 - DVC (0) | 2022.02.07 |
[MLops] 220206 패스트캠퍼스 챌린지 14일차 - PVC (0) | 2022.02.06 |
댓글