정밀도와 재현율의 공식 정밀도 = TP / (FP + TP) 재현율 = TP / (FN + TP) 정밀도( = 양성 예측도) : 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율 재현율( = 민감도, TPR) : 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율 재현율이 중요 지표인 경우 - 실제 Positive 양성 데이터를 Negative로 잘못 판단하면 업무상 큰 영향이 발생하는 경우 ex) 암 판단 모델, 보험 사기 정밀도가 중요 지표인 경우 - 실제 Negative 음성 데이터를 Positive로 잘못 판단하면 업무상 큰 영향이 발생하는 경우 ex) 스팸메일 여부 판단 모델 재현율과 정밀도 모두 TP를 ..
Python, Jupyter 🐍/[python]파이썬 머신러닝 완벽 가이드
load_boston()을 실행하였는데 다음과 같은 에러가 떴다 `load_boston` has been removed from scikit-learn since version 1.2. 이는 보스턴 데이터셋의 윤리적인 문제로 1.2버전에서 load_boston()이 삭제되었기 때문이다. 해결법 import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target..
머신러닝의 종류¶ 머신러닝 : 인공지능을 공부시키는 방법 1 지도 학습(Supervised Learning)¶문제와 정답을 모두 알려주고 공부시키는 방법 지도 학습 : 반응변수를 예측해내는 것이 목적 1-1 회귀(Regression)¶ 회귀 예측분석(regression) : *수량형* 반응변수 예측 얼마나 많은가?와 같은 *양적*인 문제 해결에 도움되는 알고리즘으로 *분류* 문제에 비해 모형의 복잡도가 높음 예) 구매 금액, 매출액, 이용 고객 수 예측 등 선형 회귀, 회귀나무, 시계열 분석 사례 1-2 분류(Classification)¶분류분석(classification) : *범주형* 반응변수 예측 새로운 데이터와 형성된 모형으로부터 보지못한 데이터 분류 이진 분류(binary classificati..
02 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기¶ sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터 세트 생성 sklearn.tree : 트리 기반 ML 알고리즘 구현. ML 알고리즘은 의사 결정 트리(Decision Tree) 알고리즘으로, 이를 구현한 DecisionTreeClassifier 적용 sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가 load_iris() : 붓꽃 데이터 세트 생성 train_test_split() : 데이터 세트를 학습 데이터와 테스트 데이터로 분리 피처는 속성(컬럼, 열), 레이블은 품종 In [7]: from sklearn.datasets imp..