본문 바로가기
반응형

머신러닝22

[혼공머신] 06-2 | k-평균 이번 단원에서는 k-평균 알고리즘의 작동 방식을 이해하고, 과일 사진을 자동으로 모으는 비지도 학습 모델을 만들어본다.​https://youtu.be/SBdy0nSctRM?si=LJ1qOffRbHGHUKmf  키워드​k-평균k-평균 알고리즘은 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 생성합니다. 그다음 클러스터의 중심을 이동하고 다시 클러스터를 생성하는 것을 반복하여 최적의 클러스터를 만드는 알고리즘입니다.​클러스터 중심k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값입니다. 센트로이드centriod라고도 불립니다. 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나, 새로운 샘플에 대한 예측으로 활용할 수 있습니다.​엘보우 방법최적의 클러스터 개수를 정하는 방법 중 하나.. 2024. 11. 9.
[머신러닝] 비지도 학습 k-평균 / K-means K-평균(K-means) 알고리즘은 비지도 학습의 가장 널리 사용되는 클러스터링 방법 중 하나입니다. 이 방법은 데이터를 K개의 클러스터로 그룹화하는 것을 목표로 하며, 각 클러스터는 클러스터의 중심(centroid)을 기반으로 형성됩니다. K-평균 알고리즘K-평균 알고리즘의 작동 원리K-평균 알고리즘의 기본 단계는 다음과 같습니다:초기 중심 설정: 먼저 데이터 포인트 중에서 무작위로 K개를 선택하여 각 클러스터의 초기 중심(centroid)으로 설정합니다.할당 단계: 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당합니다. 클러스터 중심과의 거리는 보통 유클리드 거리를 사용하여 측정합니다.업데이트 단계: 각 클러스터의 중심을 새롭게 계산합니다. 이는 클러스터에 속한 모든 데이터 포인트의 평균 위치로.. 2024. 11. 8.
[혼공머신] 06-1 | 군집 알고리즘 드디어 6단원에 들어왔다. 강의에서 원한다면 6단원은 건너뛰고 나중에 다시 와서 봐도 좋다고 하는데, 나는 그냥 교재 순차대로 보려고 한다.​https://youtu.be/u-G_sV7P_aA?si=5tbNy-iJVXUGodkx   키워드​비지도 학습비지도 학습은 머신러닝의 한 종류로 훈련 데이터에 타깃이 없습니다. 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 합니다. 대표적인 비지도 학습은 군집, 차원 축소 등입니다.​히스토그램히스토그램은 구간별로 값이 발생한 빈도를 그래프로 표시한 것입니다. 보통 x축이 값의 구간(계급)이고 y축은 발생 빈도(도수)입니다.​군집군집은 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업입니다. 군집 알고리즘으로 모은 샘플 그룹을 .. 2024. 11. 6.
머신러닝 알고리즘 선택 기본 가이드 머신러닝 알고리즘 사용시, 어떤 상황에서 어떤 알고리즘을 선택하는가는 매우 중요한 문제입니다. 이 선택은 모델의 성능, 모델의 학습속도, 자원 사용에 영향을 미치기 때문이에요. 그러니 기준을 잘 정리해 두어야 합니다.이를 위해 가이드라인을 작성해 봅니다. 1. 데이터의 크기와 특성작은 데이터: 데이터가 적고, 과적합이 걱정된다면 K-Nearest Neighbors(KNN)나 결정 트리 같은 간단한 알고리즘이 유리할 수 있어요.큰 데이터: 데이터가 많고 복잡하다면 랜덤 포레스트나 그레이디언트 부스팅 계열(XGBoost, LightGBM)이 더 좋은 성능을 발휘하는 경우가 많습니다. 이들은 큰 데이터에서도 잘 확장될 수 있도록 설계되었습니다. 2. 문제의 유형분류 문제: 이진 분류냐, 다중 클래스냐에 따라 .. 2024. 11. 4.
[혼공머신] 05-3 | 트리의 앙상블 이번 단원은 머신 러닝에서 특별히 중요한 단원이라고 합니다.https://youtu.be/Moz8i-tKurk?si=WJBaFYBdQppL5RKl *키워드 앙상블 학습더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘을 말한다.​랜덤 포레스트대표적인 결정 트리 기반의 앙상블 학습 방법이다. 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징이다.​엑스트라 트리랜덤 포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만 부트스트랩 샘플을 사용하지 않는다. 대신 랜덤하게 노드를 분할해 과대적합을 감소시킨다.​그레이디언트 부스팅랜덤 포레스트나 엑스트라 트리와 달리, 결정 트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법이다. 이런 .. 2024. 11. 4.
반응형