본문 바로가기
728x90
반응형

분류 전체보기150

자꾸 까먹는 SQL 메소드 정리 --21. 문자열 인덱싱 "smith" 앞에 세개만 출력 select substr('smith',1,3) from dual; -- 21. 특정 글자 채우기 연봉 좌로 10개 맞춰서 별채우기 우로 10개 맞춰서 별채우기 ### 기억이 안난다 pad !!!!!! pad!!!!! -- +) 사원, 부서 넘버도 비슷하게 만들어보기 -- python 에서는 이걸 하는게 뭔가 zfill. select lpad(ename,10,'_'), rpad(DEPTNO,10,'*') from emp; --22. 특정 글자 삭제 "SMITH" 에서 하나씩 글자 삭제 해보기 -- trim 은 끝단어만 삭제가 가능하다. LR 은 방향 설정, 양방향으로 하고 싶을 대는 그냥 trim -- python strip select ltrim.. 2020. 7. 29.
[Machine learning] 스태킹 알고리즘 (Stacking algorithm) - 앙상블, 배깅, 부스팅 정리 200728 index 1. 스태킹 알고리즘의 개념 2. 코드 예제 3. 앙상블 - 스태킹, 배깅, 부스팅 4. 스태킹의 장단점 5. 단점을 보완하는 CV세트기반 스태킹 6. 코드예제 1. 스태킹 알고리즘 여러 모델들을 활용해 각각의 예측 결과를 도출한 뒤 그 예측 결과를 결합해 최종 예측 결과를 만들어내는 것 따라서 스태킹 알고리즘에는 총 2가지 단계가 있는데 단계 1. n 개의 모델로 학습 데이터로 학습 모델 생성 단계 2. n 개의 모델에서 학습을 마친 뒤 예측한 값들을 합쳐서 최종 예측 단계 1 과정에서 해당되는게 아래 그림의 Regression models 이고 단계 2 과정에 해당 되는게 Meta-regressor이다. 아래의 사진은 회귀 예측을 기준으로 그림을 도식화 했는데 만약 분류 문제라면 Regre.. 2020. 7. 28.
[Machine learning] 쉽게 설명하는 Grid search - 모델 성능을 최고로 만드는 hyper parameter를 찾아서 (200727) index 1. Grid search 의 정의 2. 코드 구현 및 결과 3. 유사한 다른 방법들 1. Grid search 란 무엇인가? 0) 컨셉 : 모델에게 가장 적합한 하이퍼 파라미터를 찾기 Grid search (격자 탐색) 은 모델 하이퍼 파라미터에 넣을 수 있는 값들을 순차적으로 입력한뒤에 가장 높은 성능을 보이는 하이퍼 파라미터들을 찾는 탐색 방법이다. 다시 모델을 학생에 비유해보자면, 학생에게 문제집을 공부시키기 위해선 여러가지 공부법이 있다. 이 공부법들은 머신러닝/딥러닝 수많은 학습 모델 종류들에 해당 된다. 그리고 그 공부 방법에서도 세부적인 규율들이 있을 것이다. 하루에 몇쪽 풀고 모의고사 칠지, 몇번씩 보고 다음페이지 넘어갈지 어디까지 깊게 공부할지 등등 이 세부적인 규율이 하이퍼.. 2020. 7. 27.
[Machine learning] 쉽게 설명하는 Cross Validation 교차검증 index 교차검증이란? 교차검증을 사용하는 이유 코드 및 결과 추가 질문들 (Stratified K-fold 교차검증) 1. 교차 검증 (cross validation) : 모델의 학습 과정에서 학습 / 검증데이터를 나눌때 단순히 1번 나누는게 아니라 K번 나누고 각각의 학습 모델의 성능을 비교하여 평균 값으로 0) 우선 데이터를 왜 나누나? 학습 모델의 한명의 학생이라하고, 우리는 대량의 문제집(데이터) 로 학생을 학습시킨다. 이때 효율적인 학습을 위해 문제집(데이터) 학습 분량을 나누는데 학습 데이터 (Training set) - 문제집의 문제은행 검증 데이터 (Validation set) - 문제집에 속한 기출 모의고사 (성능 검증 / 학습에는 활용되지 않음 - 자세한 설명은 뒤에) 시험 데이터(.. 2020. 7. 26.
[백준][heap] 최소힙 python (200726) 1. 문제 설명 https://www.acmicpc.net/problem/1927 1927번: 최소 힙 첫째 줄에 연산의 개수 N(1≤N≤100,000)이 주어진다. 다음 N개의 줄에는 연산에 대한 정보를 나타내는 정수 x가 주어진다. 만약 x가 자연수라면 배열에 x라는 값을 넣는(추가하는) 연산이고, x가 0이� www.acmicpc.net 2. 풀이 핵심 개념 : heap 을 다뤄야 함. 0 이 아닌 다른 숫자가 들어왔을 때는 heappush 0 이 들어오면 heappop 한 뒤 print 이때 pop 할 숫자 없으면 print 0 1) 내 풀이 (런타임 에러) import heapq N = int(input()) heap_list = [] heapq.heapify(heap_list) for _ in.. 2020. 7. 26.
[프로그래머스][heap] 라면공장 python (200725) 1. 문제설명 1) 라면 공장에서는 하루에 밀가루를 1톤씩 사용합니다. 원래 밀가루를 공급받던 공장의 고장으로 앞으로 k일 이후에야 밀가루를 공급받을 수 있기 때문에 해외 공장에서 밀가루를 수입해야 합니다. 해외 공장에서는 향후 밀가루를 공급할 수 있는 날짜와 수량을 알려주었고, 라면 공장에서는 운송비를 줄이기 위해 최소한의 횟수로 밀가루를 공급받고 싶습니다. 현재 공장에 남아있는 밀가루 수량 stock, 밀가루 공급 일정(dates)과 해당 시점에 공급 가능한 밀가루 수량(supplies), 원래 공장으로부터 공급받을 수 있는 시점 k가 주어질 때, 밀가루가 떨어지지 않고 공장을 운영하기 위해서 최소한 몇 번 해외 공장으로부터 밀가루를 공급받아야 하는지를 return 하도록 solution 함수를 완성.. 2020. 7. 25.
[Machine learning] label encoding VS one-hot encoding 언제 뭘 써야하나. 1. 인코딩이 필요한 이유 우리는 어떤 라벨 정보를 텍스트로 넣을 수 없다. 숫자화, 벡터화 시켜야 한다. 따라서 이를 숫자로 인코딩! 시켜줘야하는데 그 방법에 따라 label encoding 과 one-hot encoding 로 나뉜다. 2. 예시 가령 타이타닉 생존자 데이터에서 타이타닉호의 좌석 등급을 예로 들자면 우리는 모델에 first class, second class, third class 를 각각 숫자로 인코딩하여 입력시켜줘야한다. 종류 first class second class third class label encoding 1 2 3 one-hot encoding [1,0,0] [0,1,0] [0,0,1] 원핫 인코딩은 라벨 개수가 입력 차원이 된다. 예시는 3가지 클래스로 나눠지기 때.. 2020. 7. 25.
[프로그래머스][heap] 힙 정렬(heap sort) 개념 + 더 맵게 python (200722) 1. 문제 설명 매운 것을 좋아하는 Leo는 모든 음식의 스코빌 지수를 K 이상으로 만들고 싶습니다. 모든 음식의 스코빌 지수를 K 이상으로 만들기 위해 Leo는 스코빌 지수가 가장 낮은 두 개의 음식을 아래와 같이 특별한 방법으로 섞어 새로운 음식을 만듭니다. 섞은 음식의 스코빌 지수 = 가장 맵지 않은 음식의 스코빌 지수 + (두 번째로 맵지 않은 음식의 스코빌 지수 * 2) Leo는 모든 음식의 스코빌 지수가 K 이상이 될 때까지 반복하여 섞습니다. Leo가 가진 음식의 스코빌 지수를 담은 배열 scoville과 원하는 스코빌 지수 K가 주어질 때, 모든 음식의 스코빌 지수를 K 이상으로 만들기 위해 섞어야 하는 최소 횟수를 return 하도록 solution 함수를 작성해주세요. * 제한 사항 s.. 2020. 7. 25.
데이콘 제주카드데이터 분석 - 200724 참고 커널 코드 https://chloevan.github.io/python/dacon/jeju2020/03_log_transformation_gbm/#4-rmsle-%EC%84%B1%EB%8A%A5-%ED%8F%89%EA%B0%80-%EB%B0%A9%EB%B2%95 데이콘 대회 참여 - 03 데이터 샘플링과 종속변수 로그변환 공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확�� chloevan.github.io Q1. 타겟 값의 분포를 시각화 하는 과정에서 sklearn.stats.norm.fit , sklearn.stats.probplot 구문.. 2020. 7. 24.
[프로그래머스][stack/queue] 주식가격 python (200722) 1. 문제 1) 문제 설명 초 단위로 기록된 주식가격이 담긴 배열 prices가 매개변수로 주어질 때, 가격이 떨어지지 않은 기간은 몇 초인지를 return 하도록 solution 함수를 완성하세요. 2) 제한사항 prices의 각 가격은 1 이상 10,000 이하인 자연수입니다. prices의 길이는 2 이상 100,000 이하입니다. 3) 입출력 예시 prices return [1, 2, 3, 2, 3] [4, 3, 1, 1, 0] 4) 입출력 예시 설명 1초 시점의 ₩1은 끝까지 가격이 떨어지지 않았습니다. 2초 시점의 ₩2은 끝까지 가격이 떨어지지 않았습니다. 3초 시점의 ₩3은 1초뒤에 가격이 떨어집니다. 따라서 1초간 가격이 떨어지지 않은 것으로 봅니다. 4초 시점의 ₩2은 1초간 가격이 떨어.. 2020. 7. 22.
728x90
반응형