본문 바로가기
반응형

Study/Machine learning19

[Machine learning] Markov Chain, Gibbs Sampling, 마르코프 체인, 깁스 샘플링 (day2 / 201010) Q. Markov Chain을 고등학생에게 설명한다면 어떤 방식이 좋을까요? Q. Markov Chain 은 머신러닝 알고리즘 중 어디에 활용이 되나요? Q. 깁스 샘플링 은 무엇인가 Q. 깁스 샘플링 은 왜 쓰는가 ? Q. Markov Chain을 고등학생에게 설명한다면 어떤 방식이 좋을까요? sites.google.com/site/machlearnwiki/RBM/markov-chain (제가 보려고 여기에 다시 옮겨 적어유 원문은 링크로 ! ) Markov Chain - MLWiki 마코프 체인 마코프 체인(Markov Chain)은 마코프 성질(Markov Property)을 지닌 이산 확률 과정(Discrete-time Stochastic Process)을 의미한다 마코프 성질 마코프 성질이라 함.. 2020. 10. 10.
[Machine learning] 차원축소, PCA, SVD, LSA, LDA, MF 간단정리 (day1 / 201009) Q. 차원의 저주에 대해 설명해주세요. dimension reduction 기법으로 보통 어떤 것들이 있나요? # 차원의 저주 - Curse of dimension 입력된 데이터의 수보다 데이터의 차원이 더 큰 경우 발생하는 문제를 차원의 저주라 합니다. 가령 입력한 데이터의 양은 100개 인데 각 데이터의 차원은 500인 상황입니다. 우리는 데이터(벡터)가 뿌려진 벡터 공간에서 분류 또는 예측하는 가장 적합한 함수를 찾는게 기계학습, 딥러닝 학습의 목표인데요. 입력한 데이터의 양은 적고, 데이터의 차원이 커지게 된다면 이때 벡터 공간의 차원이 무수히 커지고 데이터는 여기저기 흩뿌려져 있는 상황입니다. 이 흩어진 벡터들을 분류 예측하는 함수의 모형은 복잡해지게 됩니다. 즉, 모델의 복잡도가 증가하고 예측.. 2020. 10. 10.
[Machine learning] PCA(주성분분석), LDA(선형판별분석법), SVD (행렬분해) (쉽게 설명하는 차원 축소 기법들 총정리 part2) (이전 포스팅) https://huidea.tistory.com/44?category=879541 [Machine learning] PCA 주성분분석 (쉽게 설명하는 차원 축소 기법들 총정리 part1) 200803 Index 1. 차원 축소는 왜 하는가? 2. PCA 2.0 기본컨셉 2.1 그림으로 살펴보기 2.2.선형대수학 개념 후려쳐서 2.3 코드로 살펴보기 -------------------------------- (다음 포스팅에서) 3. LDA 4. SVD 1. 차원.. huidea.tistory.com Index 1. 차원 축소는 왜 하는가? 2. PCA (이번 포스팅은 여기서 부터 ) 3. LDA 4. SVD 3. LDA (Linear Discriminant Analysis) 선형판별분석법 .. 2020. 8. 6.
[Machine learning] PCA 주성분분석 (쉽게 설명하는 차원 축소 기법들 총정리 part1) 200803 Index 1. 차원 축소는 왜 하는가? 2. PCA 2.0 기본컨셉 2.1 그림으로 살펴보기 2.2.선형대수학 개념 후려쳐서 2.3 코드로 살펴보기 -------------------------------- (다음 포스팅에서) 3. LDA 4. SVD 1. 차원 축소는 왜 하는가? 외출 활동이 좋은지 좋지 않은지 분류하는 머신러닝 모델을 만들고자 한다. 이를 위해 우리는 날씨 데이터를 확보했다. 지금 현재의 풍속, 온도, 습도, 미세먼지, 강수량,... 정말 많은 요인들이 영향을 미칠 것이다. 통계학에서는 이를 독립 변수라 하고, 데이터 분석/ 머신러닝에서는 이를 피쳐(Feature) 라 한다. (본 포스팅에서는 피쳐라고 하겠음) 가령 101개의 야외활동과 관련된 항목들과 그 수치가 나열된 데이터 테이.. 2020. 8. 3.
[Machine learning] 데이터 표준화, 정규화, 피쳐스케일링 - 200729 index 1. 피쳐스케일링, 표준화, 정규화 2. 피쳐의 분포확인 방법. 3. 표준화 정규화 방법. 4. 코드 구현 성능 차이 1. 피쳐 스케일링 표준화 정규화 0) 피쳐 스케일링? 입력된 데이터에는 각각의 피쳐가 있을 텐데, 해당 피쳐들의 값을 일정한 수준으로 맞춰주는 것이 피쳐 스케일링(Feature scalining) 이라 불림. 이때 적용되는 스케일링 방법이 표준화(standardization) 와 정규화(normalization)다. Q. 우선 스케일링을 왜 하나 ? 가령 우리가 특정 기기의 센서 데이터를 가지고 있고 해당 데이터는 온도, 진동, 전류값, 사용 시간 등등의 피쳐를 가지고 있다고 하자 기기명 온도 진동 전류값 사용시간 x1 a1 x2 a2 테이블의 살펴본 온도 값들의 평균이 -1.. 2020. 7. 29.
[Machine learning] 스태킹 알고리즘 (Stacking algorithm) - 앙상블, 배깅, 부스팅 정리 200728 index 1. 스태킹 알고리즘의 개념 2. 코드 예제 3. 앙상블 - 스태킹, 배깅, 부스팅 4. 스태킹의 장단점 5. 단점을 보완하는 CV세트기반 스태킹 6. 코드예제 1. 스태킹 알고리즘 여러 모델들을 활용해 각각의 예측 결과를 도출한 뒤 그 예측 결과를 결합해 최종 예측 결과를 만들어내는 것 따라서 스태킹 알고리즘에는 총 2가지 단계가 있는데 단계 1. n 개의 모델로 학습 데이터로 학습 모델 생성 단계 2. n 개의 모델에서 학습을 마친 뒤 예측한 값들을 합쳐서 최종 예측 단계 1 과정에서 해당되는게 아래 그림의 Regression models 이고 단계 2 과정에 해당 되는게 Meta-regressor이다. 아래의 사진은 회귀 예측을 기준으로 그림을 도식화 했는데 만약 분류 문제라면 Regre.. 2020. 7. 28.
[Machine learning] 쉽게 설명하는 Grid search - 모델 성능을 최고로 만드는 hyper parameter를 찾아서 (200727) index 1. Grid search 의 정의 2. 코드 구현 및 결과 3. 유사한 다른 방법들 1. Grid search 란 무엇인가? 0) 컨셉 : 모델에게 가장 적합한 하이퍼 파라미터를 찾기 Grid search (격자 탐색) 은 모델 하이퍼 파라미터에 넣을 수 있는 값들을 순차적으로 입력한뒤에 가장 높은 성능을 보이는 하이퍼 파라미터들을 찾는 탐색 방법이다. 다시 모델을 학생에 비유해보자면, 학생에게 문제집을 공부시키기 위해선 여러가지 공부법이 있다. 이 공부법들은 머신러닝/딥러닝 수많은 학습 모델 종류들에 해당 된다. 그리고 그 공부 방법에서도 세부적인 규율들이 있을 것이다. 하루에 몇쪽 풀고 모의고사 칠지, 몇번씩 보고 다음페이지 넘어갈지 어디까지 깊게 공부할지 등등 이 세부적인 규율이 하이퍼.. 2020. 7. 27.
[Machine learning] 쉽게 설명하는 Cross Validation 교차검증 index 교차검증이란? 교차검증을 사용하는 이유 코드 및 결과 추가 질문들 (Stratified K-fold 교차검증) 1. 교차 검증 (cross validation) : 모델의 학습 과정에서 학습 / 검증데이터를 나눌때 단순히 1번 나누는게 아니라 K번 나누고 각각의 학습 모델의 성능을 비교하여 평균 값으로 0) 우선 데이터를 왜 나누나? 학습 모델의 한명의 학생이라하고, 우리는 대량의 문제집(데이터) 로 학생을 학습시킨다. 이때 효율적인 학습을 위해 문제집(데이터) 학습 분량을 나누는데 학습 데이터 (Training set) - 문제집의 문제은행 검증 데이터 (Validation set) - 문제집에 속한 기출 모의고사 (성능 검증 / 학습에는 활용되지 않음 - 자세한 설명은 뒤에) 시험 데이터(.. 2020. 7. 26.
[Machine learning] label encoding VS one-hot encoding 언제 뭘 써야하나. 1. 인코딩이 필요한 이유 우리는 어떤 라벨 정보를 텍스트로 넣을 수 없다. 숫자화, 벡터화 시켜야 한다. 따라서 이를 숫자로 인코딩! 시켜줘야하는데 그 방법에 따라 label encoding 과 one-hot encoding 로 나뉜다. 2. 예시 가령 타이타닉 생존자 데이터에서 타이타닉호의 좌석 등급을 예로 들자면 우리는 모델에 first class, second class, third class 를 각각 숫자로 인코딩하여 입력시켜줘야한다. 종류 first class second class third class label encoding 1 2 3 one-hot encoding [1,0,0] [0,1,0] [0,0,1] 원핫 인코딩은 라벨 개수가 입력 차원이 된다. 예시는 3가지 클래스로 나눠지기 때.. 2020. 7. 25.
728x90
반응형