본문 바로가기
728x90
반응형

전체 글150

[Machine learning] 로지스틱 회귀분석 심화 - 베르누이 확률변수, log-likelihood, cross-entropy, odd 개념 뜯어보기 intro. 로지스틱 회귀모델이 이름만 회귀지 "분류" 모델인 것은 머신러닝 입문자라면 쉽게 알 수 있다. 이번 시간에는 어떤 수식/가정을 통해서 연산이 되는지 살펴보고 그 다음 포스팅에서는 직접 데이터에 적용해보며 로지스틱 회귀 분석에서의 유의 사항을 살펴보겠다. 핵심 참고 내용은 김성범 교수님 핵심 머신러닝의 로지스틱 회귀모델 강의다. 1편 : https://www.youtube.com/watch?v=l_8XEj2_9rk&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=25 2편 : https://www.youtube.com/watch?v=Vh_7QttroGM&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=24 index 1. 로지.. 2022. 3. 1.
[Machine learning] 의사결정나무 - 지니계수(gini-index), Cross entropy, 정보이득 (information gain), ID3, C4.5, CART 현재 머신러닝 모델들 중 우수한 성능을 보이는 모델은 전부 부스팅 계열이다. 그리고 이 부스팅 계열 모델들 (XGB, lightGBM) 은 의사결정나무라는 알고리즘으로부터 시작을 했는데 이번 포스팅에서는 의사 결정 나무 알고리즘의 분류, 회귀 알고리즘과 파라미터 추정, 해석에 대해 설명해보겠다. index. 0. 의사 결정 나무와 부스팅 모델들 1. 의사결정나무의 컨셉 2. 의사결정나무의 회귀 1) 분할 방법 2) cost function 3) 분할 변수와 분할점 3. 의사결정나무의 분류 1) 분할 방법 2) cost function - gini index, Cross entropy 3) 분할 변수와 분할점 4) 실제 계산과정 5) 정보이득 information gain +) feature importa.. 2022. 2. 28.
[Machine learning] 선형회귀모델 (2) 결과 해석 - t-value (t-test,t검정), p-value, R2score https://huidea.tistory.com/246 [Machine learning] 선형회귀모델 (1) 모델검정 - 정규성/등분산성/독립성 Intro. 선형회귀 모델을 구현할 때, 그저 LinearRegression.fit()을 해도 학습은 물론 된다. 하지만, 생성된 모델이 선형회귀의 기본 가정을 따르는지 아닌지 체크가 필요하다. 선형회귀가정에 따르지도 huidea.tistory.com 이 포스팅에 이어 이번 포스팅에서는 선형회귀모델의 결과 해석에 대해 살펴보고자 한다. index 1. Boston 집값 예측으로 모델링 2. Stats model summary 의미 해석 3. R2score의 의미 1. Boston 집값 예측으로 모델링 #### 0. import module #### from sk.. 2022. 2. 20.
[Machine learning] 추천 알고리즘의 기초 총정리 - Collaborative filtering , Matrix Factorization, SVD, Factorization machines 0. 추천 알고리즘의 종류 https://towardsdatascience.com/various-implementations-of-collaborative-filtering-100385c6dfe0 1) 협업 필터링(Collaborative Filtering) • Memory Based Approach : User-based Filtering, Item-based Filtering • Model Based Approach : 행렬 분해(Matrix Factorization) 2) 콘텐츠 필터링(Contents-Based Filtering) 3) 딥러닝 기반 추천 시스템 1. Memory based algorithm 1) 정의 즉, 사용자 - 아이템 구매 이력을 기반으로 사용자 similarity 혹은 아이.. 2022. 2. 20.
[MLops] 220211 패스트캠퍼스 챌린지 19일차 - Model management 이번 시간은 MLflow 실습에 들어가기전 Model management 에 대해 배웠다. 1) Model management Cycle Raw data -> Data processing -> Train & Evaluate : 이 과정을 지속적으로 반복 이를 위해서는 학습에 사용한 데이터 데이터 전처리 코드 전처리 된 데이터 사용한 features Model 소스코드 Model pkl 파일 Evaluation metric 결과 이 내용들이 저장 + 업데이트 + 관리가 되어야 함 → 해당 모델의 성능 재현이 목표 but MLops 의 문제들....ㅠㅠ 학습 단계에서 랜덤 시드가 개발자의 관리 밖의 영역 dependency package 문제도 발생 모델의 사이즈가 커서 학습 시간 (하루 이틀 몇주인 경우도.. 2022. 2. 11.
[MLops] 220210 패스트캠퍼스 챌린지 18일차 - DVC 실습(2) 지난 시간에 이어서 DVC 추가 실습을 진행하겠다. https://huidea.tistory.com/254?category=999869 [MLops] 220209 패스트캠퍼스 챌린지 17일차 - DVC 실습 이전 수업에 이어서 DVC 환경 설정을 해보겠다 ! DVC (data version control) https://dvc.org/ Data Version Control · DVC Open-source version control system for Data Science and Machine Learning project.. huidea.tistory.com 1) dvc pull 데이터를 remote storage 로부터 다운로드합니다. cd dvc-tutorial # dvc 캐시를 삭제합니다. rm.. 2022. 2. 10.
[MLops] 220209 패스트캠퍼스 챌린지 17일차 - DVC 실습 이전 수업에 이어서 DVC 환경 설정을 해보겠다 ! DVC (data version control) https://dvc.org/ Data Version Control · DVC Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments. dvc.org git과 연동하면서 데이터 버전을 관리 대부분의 스토리지와 호환가능, 깃과 유사한 인터페이스 이 과정을 자동화 해두어 쉽게 사용할 수 있음 1. 파이썬 설치 & git 설치 https://docs.aws.amazon.com/ko_kr/parallel.. 2022. 2. 9.
[MLops] 220208 패스트캠퍼스 챌린지 16일차 - DVC 실습 Part3. 오픈소스를 통해 알아보는 MLOps의 구성요소 Data management ? - ml 프로젝트를 하면서 데이터를 업데이트 해야하는 경우가 생김 - 특히 시계열 데이터의 경우에는 데이터가 실시간으로 바뀜 - feature engeeniring을 통해서도 데이터의 버전이 계속 바뀜 DVC (data version control) https://dvc.org/ Data Version Control · DVC Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments. dvc.org git과.. 2022. 2. 8.
[Deep Learning] Few shot Learning, Meta learning 개념 총정리 Few shot Learning, Meta learning 개념 총정리 Index 0. Few-shot learning 의 등장 배경 : " 학습 데이터가 없다 " 1. Few shot learning, Meta learning, Transfer learning 뭐가 다른데? 2. Episode training : 에피소드 방식을 통해 메타러닝을 시도 3. Meta learning 학습 기법 3가지 0. Few-shot learning 의 등장 배경 : " 학습 데이터가 없다 " - 학습 데이터가 적은 상황에서 딥러닝 모델 구축 자체가 어려움 - 인간처럼 몇 장의 사진만을 보고도 직관적으로 분류하는 모델을 우리는 만들 수 없나 ? - 소량의 데이터(few-shot)만으로도 뛰어난 학습을 하는 모델 만들어.. 2022. 2. 8.
[MLops] 220207 패스트캠퍼스 챌린지 15일차 - DVC Part3. 오픈소스를 통해 알아보는 MLOps의 구성요소 Data management ? - ml 프로젝트를 하면서 데이터를 업데이트 해야하는 경우가 생김 - 특히 시계열 데이터의 경우에는 데이터가 실시간으로 바뀜 - feature engeeniring을 통해서도 데이터의 버전이 계속 바뀜 DVC (data version control) https://dvc.org/ Data Version Control · DVC Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments. dvc.org git과.. 2022. 2. 7.
728x90
반응형