본문 바로가기
728x90
반응형

Study/Machine learning19

[Machine learning] 우도(likelihood) 총정리 (MLE, log-likelihood, cross-entropy) 머신러닝을 수식 기반으로 뜯어보면 우도 개념이 빈번히 등장하는데, 우도 개념을 확실히 잡고 가보려한다. 우도는 분류 문제의 loss function 으로 Maximum log-likelihood (MLE)로 등장한다. 우도를 이해하기 위해선 확률의 개념과 비교하는게 용이하다. 1. 확률 : PDF의 면적 일반적으로 확률 이라고 하면, 이산형 확률 변수를 생각하기 쉽다. 동전을 뒤집었을 때 앞면이 나올 확률, 주사위를 던졌을 때 숫자 2가 나올 확률 등등 하지만 우리가 분석하고자 하는 확률이 연속형 확률이라면? 오늘의 낮 최고기온이 20이상 25 이하일 확률은? 고양이의 무게가 4kg 이상 5kg 이하일 확률은? 연속형 확률 변수를 나타낼때는 위와 같이 확률 밀도 함수(Probability Density .. 2022. 3. 4.
[ML - python code] logistic regression으로 위스콘신 암데이터 분류하기 (coefficient, odds, ROC AUC, Threshold 해석까지) 실제 코드 링크는 : https://colab.research.google.com/drive/1nDxpmTZC-KxBR9eQpk6u2PJsVu70UEdn?usp=sharing 0. Import module¶ from sklearn.datasets import load_breast_cancer import numpy as np import pandas as pd import scipy as sp from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics i.. 2022. 3. 4.
[Machine learning] 로지스틱 회귀분석 심화 - 베르누이 확률변수, log-likelihood, cross-entropy, odd 개념 뜯어보기 intro. 로지스틱 회귀모델이 이름만 회귀지 "분류" 모델인 것은 머신러닝 입문자라면 쉽게 알 수 있다. 이번 시간에는 어떤 수식/가정을 통해서 연산이 되는지 살펴보고 그 다음 포스팅에서는 직접 데이터에 적용해보며 로지스틱 회귀 분석에서의 유의 사항을 살펴보겠다. 핵심 참고 내용은 김성범 교수님 핵심 머신러닝의 로지스틱 회귀모델 강의다. 1편 : https://www.youtube.com/watch?v=l_8XEj2_9rk&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=25 2편 : https://www.youtube.com/watch?v=Vh_7QttroGM&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=24 index 1. 로지.. 2022. 3. 1.
[Machine learning] 의사결정나무 - 지니계수(gini-index), Cross entropy, 정보이득 (information gain), ID3, C4.5, CART 현재 머신러닝 모델들 중 우수한 성능을 보이는 모델은 전부 부스팅 계열이다. 그리고 이 부스팅 계열 모델들 (XGB, lightGBM) 은 의사결정나무라는 알고리즘으로부터 시작을 했는데 이번 포스팅에서는 의사 결정 나무 알고리즘의 분류, 회귀 알고리즘과 파라미터 추정, 해석에 대해 설명해보겠다. index. 0. 의사 결정 나무와 부스팅 모델들 1. 의사결정나무의 컨셉 2. 의사결정나무의 회귀 1) 분할 방법 2) cost function 3) 분할 변수와 분할점 3. 의사결정나무의 분류 1) 분할 방법 2) cost function - gini index, Cross entropy 3) 분할 변수와 분할점 4) 실제 계산과정 5) 정보이득 information gain +) feature importa.. 2022. 2. 28.
[Machine learning] 선형회귀모델 (2) 결과 해석 - t-value (t-test,t검정), p-value, R2score https://huidea.tistory.com/246 [Machine learning] 선형회귀모델 (1) 모델검정 - 정규성/등분산성/독립성 Intro. 선형회귀 모델을 구현할 때, 그저 LinearRegression.fit()을 해도 학습은 물론 된다. 하지만, 생성된 모델이 선형회귀의 기본 가정을 따르는지 아닌지 체크가 필요하다. 선형회귀가정에 따르지도 huidea.tistory.com 이 포스팅에 이어 이번 포스팅에서는 선형회귀모델의 결과 해석에 대해 살펴보고자 한다. index 1. Boston 집값 예측으로 모델링 2. Stats model summary 의미 해석 3. R2score의 의미 1. Boston 집값 예측으로 모델링 #### 0. import module #### from sk.. 2022. 2. 20.
[Machine learning] 선형회귀모델 (1) 모델검정 - 정규성/등분산성/독립성 Intro. 선형회귀 모델을 구현할 때, 그저 LinearRegression.fit()을 해도 학습은 물론 된다. 하지만, 생성된 모델이 선형회귀의 기본 가정을 따르는지 아닌지 체크가 필요하다. 선형회귀가정에 따르지도 않는데 데이터를 선형회귀에 끠워맞춰서 결과값을 뽑으면 그 값은 엉망진창일테니까 꼭 살펴봐야할 선형회귀 가정과 확인 방법에 대해서 이번 글에서 적어보겠따! +) 확률 오차 (잔차) = 타겟값 - 예측값 예측값은 확률 분포이기 때문에, 잔차도 확률 오차 index 1. 선형회귀의 가정 - 정규성, 등분산성, 독립성 2. 확률오차의 정규성 확인 2.1 QQplot 2.2 샤피로 검정 3. 확률오차의 등분산성 확인 - residual plot 4. 독립성 확인 4.1 예측값과 잔차간의 독립성 : .. 2022. 2. 3.
[DACON] 태양광 발전량 예측 AI 경진대회 part 1 0. 문제 정의 " Time series regression but ... Quantile regression ! " input(test 하나의 csv) : 0 ~ 6 일치 데이터 입력 (30분 단위 시계열 데이터) 24시간 *2개 * 7일 = 336 row output : 7,8일치 30분 단위 타겟값 예측 (regression) 24시간 * 2개 * 2일 = 96 row 하지만 이때 예측에서 반환되는 것은 Quantile 값이어야함. 즉, 30분 간격의 예측값에 대한 10%,20%,...90% 총 아홉개의 quantile 1. Quantile regression (분위 회귀) ? 참고 자료 : https://medium.com/analytics-vidhya/a-tutorial-on-quantile-r.. 2020. 12. 16.
[Machine learning] ROC 와 ROC-AUC 평가 방법 (Confusion matrix, Recall, Precision, TPR, FPR, Threshold) # Recall 재현율 , precision 정밀도 Recall 재현율 : 실제 양성 중에 양성으로 예측된 것 ( TP / TP + FN ) 실제를 얼마나 잘 재현 Precision 정밀도 : 양성으로 예측된 것 중에 실제 양성인 것 ( TP / TP + FP ) 예측을 얼마나 정밀하게 # ROC curve : 재현율과 1- 특이도 의 곡선을 그린 것 TPR : True Positive Rate ( = 재현율 / 민감도, Recall) 양성인 케이스에 대해 양성으로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함) TP / (TP+FN) TNR : True Negative Rate(=특이도) 음성인 케이스에 대해 음성으로 잘 예측한 비율 (정상환자를 잔찰해서 정상이라고 진단) FPR: False P.. 2020. 11. 10.
[Machine learning] 나이브베이즈확률, 나이브베이즈모델 (day4 / 201013) (거의 자정넘어시작하지만 그래도13일이라치자...) 0. 나이브 베이즈 1. 조건부 확률과 베이즈 정리 2. 나이브 베이즈 예시 - 스팸분류~! Q. 다른 좋은 머신 러닝 대비, 오래된 기법인 나이브 베이즈(naive bayes)의 장점을 옹호해보세요. 0. 나이브 베이즈가 뭔데? " 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기 " 그렇다면 베이즈 정리는 뭔가? 1. 조건부 확률, 나이브 베이즈 # 조건부 확률 : P(A|B)가 B가 일어나고나서 A가 일어날 확률 # 베이즈 정리 : 베이즈 정리는 조건부 확률을 계산하는 방법 중 하나입니다. P(A) 가 A가 일어날 확률, P(B) 가 B가 일어날 확률, ==> P(A), P(B) 사전 확률 P(B|A) 가 A가 일어나고나서 B가 일어.. 2020. 10. 14.
[Machine learning] 잠재디리클레할당 (day3 / 201012) 오늘의 질문 ! 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요? SVM은 왜 반대로 차원을 확장시키는 방식으로 동작할까요? 거기서 어떤 장점이 발생했나요? 다른 좋은 머신 러닝 대비, 오래된 기법인 나이브 베이즈(naive bayes)의 장점을 옹호해보세요. Q. 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요? 토픽 모델링을 해야한다. 토픽 모델링에는 다양한 기법이 있지만 그중 가장 기초적인 기법 부터 하나씩 살펴보자면 ~ 1. 잠재디리클레할당(Latent Dirichlet Allocation, LDA) : LDA는 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정 데이터가 주어지면, LDA는 문.. 2020. 10. 12.
728x90
반응형