load_boston()을 실행하였는데 다음과 같은 에러가 떴다 `load_boston` has been removed from scikit-learn since version 1.2. 이는 보스턴 데이터셋의 윤리적인 문제로 1.2버전에서 load_boston()이 삭제되었기 때문이다. 해결법 import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target..
분류 전체보기
머신러닝의 종류¶ 머신러닝 : 인공지능을 공부시키는 방법 1 지도 학습(Supervised Learning)¶문제와 정답을 모두 알려주고 공부시키는 방법 지도 학습 : 반응변수를 예측해내는 것이 목적 1-1 회귀(Regression)¶ 회귀 예측분석(regression) : *수량형* 반응변수 예측 얼마나 많은가?와 같은 *양적*인 문제 해결에 도움되는 알고리즘으로 *분류* 문제에 비해 모형의 복잡도가 높음 예) 구매 금액, 매출액, 이용 고객 수 예측 등 선형 회귀, 회귀나무, 시계열 분석 사례 1-2 분류(Classification)¶분류분석(classification) : *범주형* 반응변수 예측 새로운 데이터와 형성된 모형으로부터 보지못한 데이터 분류 이진 분류(binary classificati..
02 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기¶ sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터 세트 생성 sklearn.tree : 트리 기반 ML 알고리즘 구현. ML 알고리즘은 의사 결정 트리(Decision Tree) 알고리즘으로, 이를 구현한 DecisionTreeClassifier 적용 sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가 load_iris() : 붓꽃 데이터 세트 생성 train_test_split() : 데이터 세트를 학습 데이터와 테스트 데이터로 분리 피처는 속성(컬럼, 열), 레이블은 품종 In [7]: from sklearn.datasets imp..
In [ ]: #11.3.3부터 복습 https://datascienceschool.net/01%20python/04.08%20%EC%8B%9C%EA%B3%84%EC%97%B4%20%EC%9E%90%EB%A3%8C%20%EB%8B%A4%EB%A3%A8%EA%B8%B0.html# https://rfriend.tistory.com/category/Python%20%EB%B6%84%EC%84%9D%EA%B3%BC%20%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D 11장 시계열¶ 11.1 날짜, 자료형, 도구¶ In [1]: from datetime import datetime In [2]: now = datetime.now() In [3]: now Out[3]: dateti..
https://www.openstreetmap.org/#map=7/35.948/127.736 오픈스트리트맵 OpenStreetMap은 여러분과 같은 사람들이 만들어, 개방형 라이선스에 따라 자유롭게 사용할 수 있는 세계 지도입니다. www.openstreetmap.org In [4]: import pandas as pd df = pd.read_excel('서울지역대학교위치.xlsx') df Out[4]: 대학교 위도 경도 0 KAIST 서울캠퍼스 37.592573 127.046737 1 KC대학교 37.548345 126.854797 2 가톨릭대학교(성신교정) 37.585922 127.004328 3 가톨릭대학교(성의교정) 37.499623 127.006065 4 감리교신학대학교 37.56..
In [ ]: # 9.2부터 복습함 9장 그래프와 시각화¶ 9.1 matplotlib API 간략히 살펴보기¶ In [9]: import matplotlib.pyplot as plt In [188]: import numpy as np In [189]: data = np.arange(10) In [190]: data Out[190]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) In [191]: plt.plot(data) Out[191]: [] 9.1.1 figure와 서브플롯¶ plt.figure¶ matplotlib에서 그래프는 Figure 객체 내에 존재 그래프를 위한 새로운 figure(피겨)는 plt.figure을 사용해 생성 In [192]: fig = plt.figure..
10장 데이터 집계와 그룹 연산¶ 10.1 GroupBy 메카닉¶ In [8]: import pandas as pd import numpy as np df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2':['one', 'two', 'one', 'two', 'one'], 'data1': np.random.randn(5), 'data2': np.random.randn(5)}) In [9]: df Out[9]: key1 key2 data1 data2 0 a ..
In [52]: ### 7.3.2부터 복습 7장 데이터 정제 및 준비¶ 7.1 누락된 데이터 처리하기¶ isnull¶ 산술 데이터에 한해 pandas는 누락된 데이터를 실숫값인 NaN으로 취급 In [4]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado']) In [5]: string_data Out[5]: 0 aardvark 1 artichoke 2 NaN 3 avocado dtype: object In [6]: string_data.isnull() Out[6]: 0 False 1 False 2 True 3 False dtype: bool 파이썬의 내장 None값 또한 NA 값으로 취급 ..
cmd에서 jupyter lab을 실행시켰는데 다음과 같은 오류가 떴다 'jupyter'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는배치 파일이 아닙니다. 해결 방법 1. 윈도우 검색을 통해 Anaconda Prompt를 실행한다. 2. 다음의 코드를 통해 anaconda가 설치된 경로로 이동한다. cd '아나콘다 설치 경로' 3. jupter lab을 실행한다. jupyter lab 추가) cmd에서 jupyter lab이나 jupyter notebook 실행하기 jupyter notebook 실행 python -m notebook jupyter laptop 실행 python -m jupyter lab
문제 pd.concat([s1, s4], axis=1,join_axes=[['a','c','b','e']]) 위의 코드를 실행하였는데 다음과 같은 오류가 떴다. TypeError: concat() got an unexpected keyword argument 'join_axes' 원인 join_axes는 concat()에서 더 이상 사용하지 않는다. 해결 코드를 다음과 같이 수정 # 수정 전 pd.concat([s1, s4], axis=1,join_axes=[['a','c','b','e']]) # 수정 후 pd.concat([s1, s4], axis=1).reindex(['a','c','b','e'])