본문 바로가기
반응형

AI28

[혼공머신] 06-3 | 주성분 분석 https://youtu.be/ePqKgBnpcw4?si=C1oNBXH9fjyQ-ogJ    키워드차원 축소차원 축소는 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류이다. 차원 축소는 저장 공간을 줄이고 시각화하기 쉽다. 또한 다른 알고리즘의 성능을 높일 수도 있다.​주성분 분석주성분 분석은 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법이다. 이런 방향을 주성분이라고 부른다. 원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있다. 일반적으로 주성분은 원본 데이터에 있는 특성 개수보다 작다.​설명된 분산설명된 분산은 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것이다. 사이킷런의 PCA클래스는 주성분 개수나 .. 2024. 11. 12.
[머신러닝] 차원 축소와 주성분 분석 비지도 학습의 차원 축소비지도 학습에서의 차원 축소는 레이블이 없는 데이터의 특성(feature) 수를 줄이는 과정입니다. 이 방법은 주로 데이터의 가장 중요한 정보는 유지하면서 계산 복잡성을 줄이고, 과적합을 방지하며, 데이터의 시각화를 용이하게 하는 데 도움을 줍니다. 차원 축소는 데이터의 내재된 구조를 파악하는 데 유용하며, 여러 기법이 있지만 가장 널리 사용되는 기법은 주성분 분석(PCA), t-SNE, 그리고 LDA(Linear Discriminant Analysis) 등입니다. 비지도 학습의 차원 축소 예시: 고객 데이터 시각화고객 데이터에는 다양한 속성(예: 연령, 소득, 구매 횟수 등)이 포함되어 있을 수 있습니다. 이러한 데이터는 차원이 많아 직접적인 시각화가 어렵습니다. 차원 축소 기법.. 2024. 11. 11.
[혼공머신] 06-2 | k-평균 이번 단원에서는 k-평균 알고리즘의 작동 방식을 이해하고, 과일 사진을 자동으로 모으는 비지도 학습 모델을 만들어본다.​https://youtu.be/SBdy0nSctRM?si=LJ1qOffRbHGHUKmf  키워드​k-평균k-평균 알고리즘은 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 생성합니다. 그다음 클러스터의 중심을 이동하고 다시 클러스터를 생성하는 것을 반복하여 최적의 클러스터를 만드는 알고리즘입니다.​클러스터 중심k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값입니다. 센트로이드centriod라고도 불립니다. 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나, 새로운 샘플에 대한 예측으로 활용할 수 있습니다.​엘보우 방법최적의 클러스터 개수를 정하는 방법 중 하나.. 2024. 11. 9.
[머신러닝] 비지도 학습 k-평균 / K-means K-평균(K-means) 알고리즘은 비지도 학습의 가장 널리 사용되는 클러스터링 방법 중 하나입니다. 이 방법은 데이터를 K개의 클러스터로 그룹화하는 것을 목표로 하며, 각 클러스터는 클러스터의 중심(centroid)을 기반으로 형성됩니다. K-평균 알고리즘K-평균 알고리즘의 작동 원리K-평균 알고리즘의 기본 단계는 다음과 같습니다:초기 중심 설정: 먼저 데이터 포인트 중에서 무작위로 K개를 선택하여 각 클러스터의 초기 중심(centroid)으로 설정합니다.할당 단계: 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당합니다. 클러스터 중심과의 거리는 보통 유클리드 거리를 사용하여 측정합니다.업데이트 단계: 각 클러스터의 중심을 새롭게 계산합니다. 이는 클러스터에 속한 모든 데이터 포인트의 평균 위치로.. 2024. 11. 8.
[혼공머신] 06-1 | 군집 알고리즘 드디어 6단원에 들어왔다. 강의에서 원한다면 6단원은 건너뛰고 나중에 다시 와서 봐도 좋다고 하는데, 나는 그냥 교재 순차대로 보려고 한다.​https://youtu.be/u-G_sV7P_aA?si=5tbNy-iJVXUGodkx   키워드​비지도 학습비지도 학습은 머신러닝의 한 종류로 훈련 데이터에 타깃이 없습니다. 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 합니다. 대표적인 비지도 학습은 군집, 차원 축소 등입니다.​히스토그램히스토그램은 구간별로 값이 발생한 빈도를 그래프로 표시한 것입니다. 보통 x축이 값의 구간(계급)이고 y축은 발생 빈도(도수)입니다.​군집군집은 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업입니다. 군집 알고리즘으로 모은 샘플 그룹을 .. 2024. 11. 6.
반응형