본문 바로가기
반응형

AI/혼공머신11

[혼공머신] 05-3 | 트리의 앙상블 이번 단원은 머신 러닝에서 특별히 중요한 단원이라고 합니다.https://youtu.be/Moz8i-tKurk?si=WJBaFYBdQppL5RKl *키워드 앙상블 학습더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘을 말한다.​랜덤 포레스트대표적인 결정 트리 기반의 앙상블 학습 방법이다. 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징이다.​엑스트라 트리랜덤 포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만 부트스트랩 샘플을 사용하지 않는다. 대신 랜덤하게 노드를 분할해 과대적합을 감소시킨다.​그레이디언트 부스팅랜덤 포레스트나 엑스트라 트리와 달리, 결정 트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법이다. 이런 .. 2024. 11. 4.
[혼공머신] 05-2 | 교차 검증과 그리드 서치 ​https://youtu.be/ZaIKUvHquEQ?si=a3D8by-rJAsxLb_Q 키워드검증 세트검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트이다.​교차 검증교차 검증은 우선 훈련 세트를 여러 폴드로 나눈 다음, 한 폴드가 검증 세트 역할을 하고 나머지 폴드로 모델을 훈련한다. 그리고 이런식으로 모든 폴드에 대해 검증 점수를 얻어 평균한다.​그리드 서치그리드 서치는 하이퍼파라미터 탐색을 자동화해 주는 도구이다. 탐색할 매개변수를 나열하면 교차 검증을 수행한 후 가장 좋은 검증 점수의 매개변수 조합을 선택해준다. 그리고 이 매개변수 조합으로 최종 모델을 훈련한다.​랜덤 서치랜덤 서치는 연속된 매개변수 값을 탐색할.. 2024. 11. 1.
[혼공머신] 05-1 | 결정 트리 키워드결정 트리예, 아니오에 대한 질문을 이어가면서 정답을 찾아 학습하는 알고리즘이다. 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어나다.불순도결정 트리가 최적의 질문을 찾기 위한 기준이다. 사이킷런은 지니 불순도와 엔트로피 불순도를 제공한다.정보 이득부모 노드와 자식 노드의 불순도 차이다. 결정 트리 알고리즘은 정보 이득이 최대화 되도록 학습한다.​가지치기결정 트리는 제한 없이 성장하면 훈련 세트에 과대적합되기 쉽다. 가지치기는 결정 트리의 성장을 제한하는 방법이다. 사이킷런의 결정 트리 알고리즘은 여러가지 가지치기 매개변수를 제공한다.특성 중요도결정 트리에 사용된 특성이 불순도를 감소하는데 기여한 정도를 나타내는 값이다. 특성 중요도를 계산할 수 있는 것이 결정 트리의 또다른 큰 장점이다.​​05-1.. 2024. 10. 31.
[혼공머신] 04-2 | 확률적 경사 하강법 키워드확률적 경사 하강법훈련 세트에서 샘플을 하나씩 꺼내서 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘이다. 샘플을 하나씩 사용하지 않고 여러 개를 사용하면 미니 배치 경사 하강법이 된다. 한 번에 전체 샘플을 사용하면 배치 경사 하강법이 된다.​손실 함수손실함수는 확률적 경사 하강법이 최적화할 대상이다. 대부분의 문제에 잘 맞는 손실 함수는 이미 정의되어 있다. 이진 분류에는 로지스틱 회귀(또는 이진 크로스 엔트로피) 손실 함수를 사용한다. 다중 분류에는 크로스 엔트로피 손실 함수를 사용한다. 회귀 문제에는 평균 제곱 오차 손실 함수를 사용한다.​에포크확률적 경사 하강법에서 전체 샘플을 모두 사용한 횟수를 의미한다. 일반적으로 경사 하강법 알고리즘은 수십번에서 수백 번 에포크를 반복한다.​​0.. 2024. 10. 24.
[혼공머신] 04-1 | 로지스틱 회귀 키워드로지스틱 회귀선형 방정식을 사용한 분류 알고리즘이다. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률을 출력할 수 있다.다중 분류타깃 클래스가 2개 이상인 분류 문제이다. 로지스틱 회귀는 다중 분류를 위해 소프트맥스 함수를 사용하여 클래스를 예측한다.시그모이드 함수선형 방정식의 출력을 따라 0과 1사이의 값으로 압축하여 이진 분류를 위해 사용한다.소프트맥스 함수다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만든다. 04-1 단원 내용럭키백의 확률04-1 단원에서 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때 생선 7개에 대한 확률 출력하기 데이터 준비하기pandas의 unique()함수로 열의 고유한 값 추출하기타깃 데이터와 입력 데이터.. 2024. 10. 17.
반응형