반응형 사이킷런4 [혼공머신] 06-3 | 주성분 분석 https://youtu.be/ePqKgBnpcw4?si=C1oNBXH9fjyQ-ogJ 키워드차원 축소차원 축소는 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류이다. 차원 축소는 저장 공간을 줄이고 시각화하기 쉽다. 또한 다른 알고리즘의 성능을 높일 수도 있다.주성분 분석주성분 분석은 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법이다. 이런 방향을 주성분이라고 부른다. 원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있다. 일반적으로 주성분은 원본 데이터에 있는 특성 개수보다 작다.설명된 분산설명된 분산은 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것이다. 사이킷런의 PCA클래스는 주성분 개수나 .. 2024. 11. 12. [혼공머신] 05-2 | 교차 검증과 그리드 서치 https://youtu.be/ZaIKUvHquEQ?si=a3D8by-rJAsxLb_Q 키워드검증 세트검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트이다.교차 검증교차 검증은 우선 훈련 세트를 여러 폴드로 나눈 다음, 한 폴드가 검증 세트 역할을 하고 나머지 폴드로 모델을 훈련한다. 그리고 이런식으로 모든 폴드에 대해 검증 점수를 얻어 평균한다.그리드 서치그리드 서치는 하이퍼파라미터 탐색을 자동화해 주는 도구이다. 탐색할 매개변수를 나열하면 교차 검증을 수행한 후 가장 좋은 검증 점수의 매개변수 조합을 선택해준다. 그리고 이 매개변수 조합으로 최종 모델을 훈련한다.랜덤 서치랜덤 서치는 연속된 매개변수 값을 탐색할.. 2024. 11. 1. [머신러닝/사이킷런] K-최근접 이웃 회귀, kneighborsregressior의 score 메소드 사용법 오늘은 사이킷런에서 제공하는 kneighborsregressior 클래스의 score 메소드에 대해 설명하겠습니다. 우선 k-최근접 이웃 알고리즘의 회귀 버전 kneighborsregressior은, 입력 데이터에 대한 예측값을 만들기 위해서 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값의 평균을 계산하는 알고리즘입니다. kneighborsregressior 클래스의 score 메소드는 예측한 값의 품질을 평가하는 데 사용됩니다. 0과 1사이의 값을 가지는 결정 계수 R2 값을 반환하는데요. R2 값이 1에 가까울수록 모델의 예측이 실제 데이터를 잘 설명한다는 의미이고, 0에 가까울수록 모델의 예측 성능이 좋지 않음을 의미합니다. R2 계산 방법은 다음과 같습니다. 여기서 yi는 타깃값, y^i는 예.. 2024. 2. 16. [Numpy] 사이킷런 train_test_split()으로 훈련 세트와 테스트 세트 분리하기. 사이킷런은 사용자 리스트나 배열을 적절히 섞은 뒤 비율에 맞게 훈련 세트와 테스트 세트로 나누어준다. 우선 함수를 import 한다. from sklearn.model_selection import train_test_split 그리고 훈련 세트와 테스트 세트로 나눌 user_data와 user_target을 준비한다. train_data, test_data, train_target, test_target = train_test_split( user_data, user_target, stratify = user_target, random_state = 1 ) train_test_split 함수에 넣은 인자를 보자. 첫 번째 인자로 전체 데이터 세트인 user_data를 넣고, 두 번째 인자로 데이터 라벨.. 2024. 2. 15. 이전 1 다음 반응형