본문 바로가기

배운 책들 정리/파이썬 머신러닝 판다스 데이터분석

(9)
파이썬 머신러닝 판다스 데이터 분석 7-3 - 머신러닝 데이터 분석 - 시그모이드 함수의 식, 로지스틱 회귀, 교차검증 1. 군집분석 1) KMC * 데이터 탐색 * 데이터 분할 / 모형 학습 객체 생성 * 클러스터 라벨 넘버 확인 * 클러스터 넘버에 색깔 부여해서 시각화 # %% # 시각화 df.plot(kind="scatter", x="Fresh", y="Milk", c="cluster_no",cmap = "hsv") df.plot(kind="scatter", x="Grocery", y="Frozen", c="cluster_no",cmap = "hsv") * 엘보 방법 # %% # 엘보 방법 d = [] for i in range(1,10+1): kmc_i = cluster.KMeans(n_clusters=i, random_state=1) kmc_i.fit(X) d.append(kmc_i.inertia_) plt.pl..
파이썬 머신러닝 판다스 데이터 분석 7-3 질문 - 머신러닝 데이터 분석, 로지스틱 회귀, 교차검증 Q1. 머신러닝에서의 kmc에 대해 KMC는 K-Means Clustering의 약자입니다. 이는 비지도학습(Unsupervised Learning) 알고리즘 중 하나로, 데이터를 여러 개의 클러스터(Cluster)로 나누는 분석 방법입니다. K-Means 알고리즘은 클러스터링에서 가장 기본적이고 널리 쓰이는 방법 중 하나입니다. K-Means Clustering 알고리즘을 사용하면 비슷한 특징을 가진 데이터들끼리 그룹화하여 데이터를 분석할 수 있습니다. Q2. WSS에 대해 WSS는 Within-Cluster Sum of Squares의 약자로, 한 클러스터 내 데이터들 간 거리의 합을 나타내는 지표입니다. K-Means Clustering에서는 WSS 값을 최소화하는 것이 클러스터링의 목적 중 하나입..
파이썬 머신러닝 판다스 데이터 분석 6,7 - 데이터프레임의 다양한 응용, 머신러닝 데이터 분석 6장 데이터프레임의 다양한 응용 1. 데이터프레임 병합 * 데이터프레임 병합 # 부수적인 요소 # %% # 데이터프레임 병합 # Ipyhton 디스플레이 설정 변경 import pandas as pd pd.set_option("display.max_columns",10) # 출력할 최대 열의 개수 pd.set_option("display.max_colwidth",20) # 출력할 열의 너비 pd.set_option("display.unicode.east_asian_width",True) # 유니코드 사용 너비 조정 ##데이터프레임 병합 # SQL JOIN 유사 = 좌우 병합 = merge() # 공통된 열, 인덱스 = 키 # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 df..
파이썬 머신러닝 판다스 데이터 분석 5,6 - 데이터 사전 처리, 데이터프레임의 다양한 응용 5장 데이터 사전 처리 1. 범주형 데이터 처리 * 범주형 데이터 처리 # %% # 범주형(카테고리) 데이터 처리 # 데이터 구간 분할 import pandas as pd import numpy as np df=pd.read_csv(r'/content/drive/MyDrive/BDA/part4/auto-mpg.csv', header=None) df.columns = ["mpg","cylinders","displacement","horsepower", "weight","acceleration","model year","origin","name"] # horsepower 열의 누락 데이터("?")를 삭제하고 실수형으로 변환 df["horsepower"].replace("?",np.nan, inplace=Tr..
파이썬 머신러닝 판다스 데이터 분석 4_3, 5 - 시각화, 데이터 사전 처리 4장 시각화 1. 시각화 1) seaborn 시각화 # 데이터 불러오기 import seaborn as sns import matplotlib.pyplot as plt titanic = sns.load_dataset("titanic") # 스타일 테마 sns.set_style("whitegrid") # 피벗 테이블로 범주형 변수를 행과 열 형태로 정리 table = titanic.pivot_table(index="sex",columns="class",aggfunc="size") # 히트맵 sns.heatmap(table, annot=True, # 데이터 값 표시 여부 fmt="d", # 숫자 표현 방식 지정 : d = 정수형 cmap="YlGnBu", # 컬러맵 linewidth=.5, # 구분선 cba..
파이썬 머신러닝 판다스 데이터 분석 4_2 - 시각화 4장 시각화 1. 시각화 1) 화면 분할 * 한글 폰트 설치 # 한글 폰트 설치 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf # 설치 후 런타임 다시 시작 * 표 데이터 # 라이브러리 불러오기 import pandas as pd import matplotlib.pyplot as plt # 데이터 불러오기 df = pd.read_excel("/content/drive/MyDrive/BDA/part4/시도별 전출입 인구수.xlsx", header = 0, engine = "openpyxl") print(df.head()) # NaN 값을 채우기 df = df.fillna(meth..
파이썬 머신러닝 판다스 데이터 분석 3,4 - 데이터 살펴보기, 시각화 3장 데이터 살펴보기 1. 데이터프레임 1) 데이터 내용 미리보기 #데이터 살펴보기 ##데이터 프레임의 구조 ###데이터 내용 미리보기 #1 # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 df = pd.read_csv(r"/content/drive/MyDrive/BDA/part3/auto-mpg.csv", header=None) print(df) # 열 이름 지정 df.columns = ["mpg", "cylinders", "displacement","horsepower", "weight", "accleration","model year","origin","name"] # 기본값이 행 5개 # 데이터 앞부분 print(df.head()) # 데이터 뒷부분 print('\n..
파이썬 머신러닝 판다스 데이터 분석 1,2 - 판다스 입문, 데이터 입출력 1장 판다스 입문 1. 산술연산 1) 산술연산 * 객체 산술연산 # 판다스 객체 산술연산 # 시리즈 & 숫자 import pandas as pd # 딕셔너리 => 시리즈 student1 = pd.Series({"국어":80, "영어":90, "수학":70}) print(student1) student1_modify = student1+10 print(student1_modify) print(type(student1_modify)) * 카테고리 위치가 바뀔 경우 # 3 student1 = pd.Series({"국어":80, "영어":90, "수학":70}) student2 = pd.Series({"국어":50, "수학":60, "영어":90}) plus = student1+student2 minus = s..
파이썬 머신러닝 판다스 데이터 분석 1 - 판다스 자료 구조 1장 판다스 입문 1) 판다스 자료 구조 * 대표적인 판다스 자료 구조 시리즈 : 1차원 배열 // = 하나의 열 // R 벡터와 같은 데이터프레임 : 2차원배열 (실무에서 가장 많이 사용) // 여러개의 시리즈 (열) // R 데이터 프레임 & Sql db 테이블과 같은 // a = c(1,2,3,4) 2) 판다스 자료 구조 * 시리즈 만들기 # 판다스 자료 구조 # 시리즈 # 판다스 불러오기 import pandas as pd # 딕셔너리 만들기 dict_data = {"a":1, "b":2, "c":3} print(dict_data) # 시리즈 만들기 sr = pd.Series(dict_data) print(sr) # 시리즈 객체인지 확인 print(type(sr)) # 인덱스 import pand..

728x90
반응형