본문 바로가기
반응형

사이킷런4

[혼공머신] 06-3 | 주성분 분석 https://youtu.be/ePqKgBnpcw4?si=C1oNBXH9fjyQ-ogJ    키워드차원 축소차원 축소는 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류이다. 차원 축소는 저장 공간을 줄이고 시각화하기 쉽다. 또한 다른 알고리즘의 성능을 높일 수도 있다.​주성분 분석주성분 분석은 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법이다. 이런 방향을 주성분이라고 부른다. 원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있다. 일반적으로 주성분은 원본 데이터에 있는 특성 개수보다 작다.​설명된 분산설명된 분산은 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것이다. 사이킷런의 PCA클래스는 주성분 개수나 .. 2024. 11. 12.
[혼공머신] 05-2 | 교차 검증과 그리드 서치 ​https://youtu.be/ZaIKUvHquEQ?si=a3D8by-rJAsxLb_Q 키워드검증 세트검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트이다.​교차 검증교차 검증은 우선 훈련 세트를 여러 폴드로 나눈 다음, 한 폴드가 검증 세트 역할을 하고 나머지 폴드로 모델을 훈련한다. 그리고 이런식으로 모든 폴드에 대해 검증 점수를 얻어 평균한다.​그리드 서치그리드 서치는 하이퍼파라미터 탐색을 자동화해 주는 도구이다. 탐색할 매개변수를 나열하면 교차 검증을 수행한 후 가장 좋은 검증 점수의 매개변수 조합을 선택해준다. 그리고 이 매개변수 조합으로 최종 모델을 훈련한다.​랜덤 서치랜덤 서치는 연속된 매개변수 값을 탐색할.. 2024. 11. 1.
[머신러닝/사이킷런] K-최근접 이웃 회귀, kneighborsregressior의 score 메소드 사용법 오늘은 사이킷런에서 제공하는 kneighborsregressior 클래스의 score 메소드에 대해 설명하겠습니다. 우선 k-최근접 이웃 알고리즘의 회귀 버전 kneighborsregressior은, 입력 데이터에 대한 예측값을 만들기 위해서 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값의 평균을 계산하는 알고리즘입니다. kneighborsregressior 클래스의 score 메소드는 예측한 값의 품질을 평가하는 데 사용됩니다. 0과 1사이의 값을 가지는 결정 계수 R2 값을 반환하는데요. R2 값이 1에 가까울수록 모델의 예측이 실제 데이터를 잘 설명한다는 의미이고, 0에 가까울수록 모델의 예측 성능이 좋지 않음을 의미합니다. R2 계산 방법은 다음과 같습니다. 여기서 yi는 타깃값, y^i는 예.. 2024. 2. 16.
[Numpy] 사이킷런 train_test_split()으로 훈련 세트와 테스트 세트 분리하기. 사이킷런은 사용자 리스트나 배열을 적절히 섞은 뒤 비율에 맞게 훈련 세트와 테스트 세트로 나누어준다. 우선 함수를 import 한다. from sklearn.model_selection import train_test_split 그리고 훈련 세트와 테스트 세트로 나눌 user_data와 user_target을 준비한다. train_data, test_data, train_target, test_target = train_test_split( user_data, user_target, stratify = user_target, random_state = 1 ) train_test_split 함수에 넣은 인자를 보자. 첫 번째 인자로 전체 데이터 세트인 user_data를 넣고, 두 번째 인자로 데이터 라벨.. 2024. 2. 15.
반응형