반응형
머신러닝 알고리즘 사용시, 어떤 상황에서 어떤 알고리즘을 선택하는가는 매우 중요한 문제입니다.
이 선택은 모델의 성능, 모델의 학습속도, 자원 사용에 영향을 미치기 때문이에요. 그러니 기준을 잘 정리해 두어야 합니다.
이를 위해 가이드라인을 작성해 봅니다.
1. 데이터의 크기와 특성
- 작은 데이터: 데이터가 적고, 과적합이 걱정된다면 K-Nearest Neighbors(KNN)나 결정 트리 같은 간단한 알고리즘이 유리할 수 있어요.
- 큰 데이터: 데이터가 많고 복잡하다면 랜덤 포레스트나 그레이디언트 부스팅 계열(XGBoost, LightGBM)이 더 좋은 성능을 발휘하는 경우가 많습니다. 이들은 큰 데이터에서도 잘 확장될 수 있도록 설계되었습니다.
2. 문제의 유형
- 분류 문제: 이진 분류냐, 다중 클래스냐에 따라 사용할 수 있는 알고리즘이 달라집니다. 예를 들어, 로지스틱 회귀는 이진 분류에 좋고, 서포트 벡터 머신(SVM)은 고차원 데이터에서 뛰어난 성능을 보입니다. 복잡한 분류 문제에는 랜덤 포레스트나 그레이디언트 부스팅을 많이 사용합니다.
- 회귀 문제: 연속적인 값을 예측할 때, 선형 회귀가 간단한 모델로 효과적일 수 있고, 비선형 관계가 강할 경우 랜덤 포레스트 회귀나 Gradient Boosting Regressor가 유리합니다.
3. 실행 시간과 리소스 제한
- 빠른 예측이 필요한 경우: 실시간 예측이나 경량 모델이 필요한 경우에는 로지스틱 회귀나 경량화된 트리 모델이 유리합니다. 반면, 훈련 시간이 길어도 괜찮다면 딥러닝이나 그레이디언트 부스팅 모델을 선택할 수 있습니다.
- 메모리 사용량이 제한된 경우: 선형 모델이나 SVM 같은 알고리즘을 선택하면 메모리를 효율적으로 사용할 수 있습니다. 반면, 트리 앙상블 모델은 메모리를 많이 사용할 수 있어요.
4. 모델 해석 가능성
- 비즈니스나 연구 분야에서 예측 결과의 해석이 중요할 때는, 선형 회귀나 결정 트리처럼 해석이 쉬운 모델이 적합할 수 있습니다. 복잡한 트리 앙상블이나 딥러닝 모델은 해석이 어렵기 때문에 적합하지 않을 수 있어요.
5. 데이터의 특이성과 전처리 요구 사항
- 결측값이 많은 경우와 비선형 특성이 강한 경우, 트리 기반 모델들을 선택하는 것이 유리합니다.
반응형
'AI > 관련 자료' 카테고리의 다른 글
그리드 서치와 랜덤 서치 (Grid Search & Random Search) (0) | 2024.11.01 |
---|---|
[Youtube] What is LSTM (Long Short Term Memory) (4) | 2024.10.07 |
[머신러닝/사이킷런] K-최근접 이웃 회귀, kneighborsregressior의 score 메소드 사용법 (0) | 2024.02.16 |
[Numpy] 사이킷런 train_test_split()으로 훈련 세트와 테스트 세트 분리하기. (0) | 2024.02.15 |
[머신러닝/ML] 머신 러닝 기초 - 1 (개념과 예시) (0) | 2023.02.15 |