본문 바로가기

DS & AI4

[머신러닝/사이킷런] K-최근접 이웃 회귀, kneighborsregressior의 score 메소드 사용법 오늘은 사이킷런에서 제공하는 kneighborsregressior 클래스의 score 메소드에 대해 설명하겠습니다. 우선 k-최근접 이웃 알고리즘의 회귀 버전 kneighborsregressior은, 입력 데이터에 대한 예측값을 만들기 위해서 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값의 평균을 계산하는 알고리즘입니다. kneighborsregressior 클래스의 score 메소드는 예측한 값의 품질을 평가하는 데 사용됩니다. 0과 1사이의 값을 가지는 결정 계수 R2 값을 반환하는데요. R2 값이 1에 가까울수록 모델의 예측이 실제 데이터를 잘 설명한다는 의미이고, 0에 가까울수록 모델의 예측 성능이 좋지 않음을 의미합니다. R2 계산 방법은 다음과 같습니다. 여기서 yi는 타깃값, y^i는 예.. 2024. 2. 16.

[Numpy] 사이킷런 train_test_split()으로 훈련 세트와 테스트 세트 분리하기. 사이킷런은 사용자 리스트나 배열을 적절히 섞은 뒤 비율에 맞게 훈련 세트와 테스트 세트로 나누어준다. 우선 함수를 import 한다. from sklearn.model_selection import train_test_split 그리고 훈련 세트와 테스트 세트로 나눌 user_data와 user_target을 준비한다. train_data, test_data, train_target, test_target = train_test_split( user_data, user_target, stratify = user_target, random_state = 1 ) train_test_split 함수에 넣은 인자를 보자. 첫 번째 인자로 전체 데이터 세트인 user_data를 넣고, 두 번째 인자로 데이터 라벨.. 2024. 2. 15.

[용어기초] 모수적 방법, 비모수적 방법 모수적(statistical parametric)과 비모수적(non-parametric)은 통계학에서 사용되는 두 가지 주요한 접근 방식이다. 모수적 방법은 특정한 가정을 기반으로 하기 때문에 가정이 잘 맞지 않을 경우 결과가 왜곡될 수 있는 단점이 있다. 반면에 비모수적 방법은 분포에 대한 가정이 없기 때문에 보다 유연하게 데이터를 분석할 수 있지만, 데이터의 양이 많을 때 계산적으로 더 복잡해질 수 있다. 1. 모수적 방법 모수적 방법은 데이터를 특정한 확률 분포에 맞는 모수(parameter)로 설명하려는 접근 방식이다. 이 방법에서는 데이터의 분포가 어떤 모수들의 함수로 표현될 수 있다고 가정한다. 모수적 방법은 통계적 가정을 기반으로 하며, 일반적으로 정규 분포, 이항 분포, 포아송 분포 등과 .. 2023. 7. 20.

[머신러닝/ML] 머신 러닝 기초 - 1 (개념과 예시) 기계 학습의 정의 사전적 의미의 학습이란 경험의 결과로 나타나는, 비교적 지속적인 행동의 변화나 그 잠재력의 변화, 또는 지식을 습득하는 과정을 말합니다. 그렇다면 기계 학습이란 무엇일까요? 바로 특정한 응용 영역에서 발생하는 데이터들을 이용하여, 높은 성능으로 문제를 해결하는 컴퓨터 프로그램을 만드는 작업을 뜻합니다. 컴퓨터는 사람이 어려워하는 일을 쉽게 하지요. 하지만 1950년대의 컴퓨터는 계산은 잘하지만 얼굴을 구분하는 등의 인식하는 일은 못 했다고 해요. 그런데 이 시기에 컴퓨터 전망에 관해 통찰력이 있던 몇몇 사람들은 ‘인공지능’이라는 단어를 만든 뒤, 컴퓨터가 사람 얼굴을 구분하는 일, 문자 인식과 같은 패턴 인식을 하도록 연구하였습니다. 연구 초반 사람들은 지식기반, 규칙 기반 방식으로 패.. 2023. 2. 15.

이전 1 다음

티스토리툴바