본문 바로가기
Study/MLops

[MLops] 220209 패스트캠퍼스 챌린지 17일차 - DVC 실습

by 후이 (hui) 2022. 2. 9.
728x90
반응형

 

이전 수업에 이어서 DVC 환경 설정을 해보겠다 ! 

 

 

DVC (data version control) 

 

https://dvc.org/

 

Data Version Control · DVC

Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments.

dvc.org

git과 연동하면서 데이터 버전을 관리

대부분의 스토리지와 호환가능, 깃과 유사한 인터페이스

이 과정을 자동화 해두어 쉽게 사용할 수 있음 

 

 

 

1. 파이썬 설치  &  git 설치 

 

https://docs.aws.amazon.com/ko_kr/parallelcluster/latest/ug/install-linux-python.html

 

Linux에 Python 설치 - AWS ParallelCluster

Linux 배포에 Python이 포함되어 있는 경우 Python 개발자 패키지를 설치해야 할 수도 있습니다. 개발자 패키지에는 확장을 컴파일하고 AWS ParallelCluster를 설치하는 데 필요한 헤더와 라이브러리가 포

docs.aws.amazon.com

 

$ sudo apt-get install python3
$ sudo apt-get install python3-pip
$ sudo apt install git

이 두가지 코드로 python 을 설치한다. 

pip 를 설치하는 이유는 DVC를 pip 를 통해 설치하기 때문이다. 

이후에 깃도 설치를 해준다 ! 

 

 

2. DVC (data version control) 설치 & 초기화 

dvc 또한 설치해준다 ! 

 

 

 

 

이후 git과 DVC를 초기화  -->  그럼 DVC 와 관련된 환경도 초기화가 된다.  

 

 

3.  예제 데이터 생성 후 DVC 버전 tracking 

 

1) dvc 로 버전 tracking 할 data 를 생성

### data 디렉토리에 demo.txt 파일 생성
mkdir data
cd data
vi demo.txt ### 간단 텍스트 입력 
cat demo.txt ### 위에서 입력한 텍스트 출력

 

2) 방금 생성한 데이터를 dvc 로 tracking 

cd ..

dvc add data/demo.txt

# To track the changes with git, run:
git add data/demo.txt.dvc data/.gitignore

 

3) dvc add 에 의해 자동 생성된 파일들을 확인

cd data
ls
# demo.txt.dvc 파일이 자동 생성된 것을 확인

cat demo.txt.dvc
# demo.txt 파일의 메타정보를 가진 파일입니다.
# git 에서는 demo.txt 파일이 아닌, demo.txt.dvc 파일만 관리하게 됩니다.

4) git commit 을 수행

git commit -m "Add demo.txt.dvc"
  • .dvc 파일은 git push 를 수행하여, git repository 에 저장

 

4. 구글 드라이브 폴더와 연동 

1) 구글 드라이브에 dvc-tutorial 폴더 생성 

2) 구글 드라이브 폴더 링크가지고 와서 dvc remote storage 로 설정  

  +) 만약 이때 구글 아이디 설정하는 과정이 없었더라면 아래와 같이 입력해서 연동시킬 구글 계정 설정

 

 

3)  앞전에 만들었던 dvc/config 파일을 git commit  + DVC push

     - 데이터를 구글 드라이브 폴더 (remote storage) 에 업로드 한 것

 


필수 링크: https://bit.ly/37BpXiC

 

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

 

17일차 학습 인증샷  : 

 

오늘은 데이터 관리 오픈소스 툴인 DVC 실습을 진행했다. 우분투 환경에서 파이썬, 깃 설치 후 DVC 설치를 했다. 특히 구글 드라이브와 연동이 되어서 커밋이 되는게 신기했다. 이외에도 s3, g3, azure 로도 remote storage를 세팅할 수 있다는데 ! 조금 더 살펴봐야겠다~!

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
 

 

728x90
반응형

댓글