본문 바로가기

배운 책들 정리/만만한 통계 : R 활용

(14)
0303 만만한 통계 R 외부 챕터 11~14 - 지도 시각화, 인터랙티브 그래프, 통계분석 가설 검정, R markdown 1. 지도 시각화 (CP 11) 1) 데이터 파악 # 지도시각화 = 단계구분도 choropleth map # map projection install.packages("mapproj") install.packages("ggiraphExtra") library(mapproj) library(ggiraphExtra) # 미국 주별 범죄 데이터 = 내장 데이터 str(USArrests) head(USArrests) # 현재 데이터의 행 이름이 주 이름 # 주 이름을 열로 변환 library(tidyverse) crime
0302 만만한 통계 R 외부 챕터 9~10 - 데이터 분석 프로젝트 2, 텍스트 마이닝 0. 지난 시간 복습 1) 핵심 통계를 하는 이유는 유의성 검정을 위해 (제대로 된 분석인지) 1. 나이 및 성별 월급 차이 분석하기 1) 다섯번째 주제 : 나이와 성별에 따른 월급의 차이 # 3월2일 # 다섯번째 주제 : 나이와 성별에 따른 월급의 차이 # 1. 나이와 성별에 따른 월급 차이가 있는가? # 2. 나이와 성별, 월급 변수 검토 # 3. 나이와 성별, 월급의 관계 분석 # 변수 검토는 앞선 분석에서 모두 완료하였음 # 나이와 성별에 따른 평균 월급 데이터가 필요함 age_sex_income % filter(!is.na(income)) %>% group_by(age,sex) %>% summarise(income_mean = mean(income)) age_sex_income # 나이와 성별에..
0228 만만한 통계 R 외부 챕터 8~9 - 그래프 만들기, 데이터 분석 프로젝트 0 지난 시간 복습 범주형 : 빈도표 (이상치 확인 후 결측치로 바꾸기) 연속형(최소,최대,평균,중앙값) : 요악통계 1 그래프 만들기 CP 8 1) 그래프 종류 1 - 산점도 : 변수 사이의 상관 관계를 확인 - 히스토그램 (연속형 변수) : 단일 변수의 분포를 보여주는 그래프. (데이터 모양과 산포를 식별하는데 도움이 됨) (데이터를 간격으로 나눠 그래프의 막대는 각 간격의 관측치 수를 나타냄) - 선그래프 : 시간 또는 기타 연속 간격에 따른 두 변수 간의 관계를 보여줌. 데이터 추세 또는 패턴을 파악하는데 용이함. (시간 경과에 따라 데이터가 어떻게 변하는지) - 상자수염그림 : 단일 변수의 데이터 범위, 중앙값, 사분위수 범위(IQR)을 보여줌. 상자는 중앙값을 나타냄.위스커는 데이터의 최소값과..
0227 만만한 통계 R 외부 챕터 6~8 - 데이터 추출, 데이터 합치기, 데이터 정제, 그래프 0. 지난 시간 복습 시간 # 지난 시간 복습 exam 파이프라인 기호의 유무 차이 # 예) 수학 점수 library(tidyverse) exam$math exam %>% select(math) # 데이터 살펴보기 head(exam,10) exam %>% head(10) tail(exam) exam %>% tail() head(exam$science) exam %>% select(science) %>% head # 행 추출 exam[exam$class == 1,] exam %>% filter(class == 1) # 열 추출 exam[,"math"] exam[,c("math","science")] exam %>% select(math) exam %>% select(math,science) # 행과 열을 ..
0224 만만한 통계 R 외부 챕터 4~6 - 데이터 프레임, 데이터 분석, 데이터 가공 1. 외부 챕터 4~5 (데이터 프레임, 데이터 분석 기초) 1) 실습 (csv파일 저장 및 불러오기) # Q1 apple % filter(class %in% c(1,3,5)) %>% select(english,science) %>% head(3) # 기본값 = 6개 행 보기 exam %>% filter(class %in% c(1,3,5)) %>% select(english,science) %>% head exam %>% filter(class %in% c(1,3,5)) %>% select(english,science) %>% head() 6) 문제풀기 (filter, select 사용) # mpg 데이터를 이용해서 분석 문제를 해결해보세요. # • Q1. mpg 데이터는 11 개 변수로 구성되어 있습니..
0223 만만한 통계 R 외부 챕터 15 - 내장 함수, 변수 타입과 데이터 구조 // 기초 문제 연습 15 R 내장함수, 변수 타입과 데이터 구조 1) 연속형 변수 (빈도 분석) 연속형 변수 (숫자) : 평균, 표준편차 -> SUMMARY() -> 차이검정(독립표본T검정) 2) 범주형 변수 (카이제곱) 범주형 변수 (그룹/문자) : 빈도, 비율 -> TABLE() -> 카이제곱 검정 3) 실습 1 (행추출) # 내장함수 # 데이터 준비하기 exam 행번호, 행이름, 열번호, 열이름 # 인덱스 사용법:데이터[행,열] # 행 추출 exam[1,] exam[15,] exam[c(1:10),] exam[c(11:20),] 2) 실습2 (이름으로 추출까지) exam[seq(1,20,by=2),] exam[seq(0,20,by=2),] # 조건을 만족하는 행 추출 str(exam) # 같다 exam[exam$cla..
0222 만만한 통계 R - 카이제곱 검정과 기타 비모수 검정 (CP19) PART 6 CP19 1) 단일표본 카이제곱 검정 - 독립성검정 : 두 변수와 관련이 있는지 여부 확인 (야채를 먹는 것과 건강이 관련이 있는가) - 동질성검정 : 두 개 이상의 그룹이 서로 유사하거나 다른지 확인하기 위함 (서로 다른 반의 학생들 성적이 비슷한지) - 적합성 검정 : 데이터 샘플이 특정 분포를 가진 모집단에 나온 것인지 확인 (학생 표본이 전체 학교 인구를 대표하는지) - 단일표본 카이제곱 검정 :범주형 변수의 관측 빈도를 기대 빈도와 비교하는 통계 검정을 의미함. 범주형 데이터 분포가 모두 동일할 경우 예상되는 분포와 다른가요의 질문과 같음 예측 빈도와 관측 빈도를 비교하는 방법 (예측과 실제 실험 시 차이가 있는지) 2) 카이제곱 검정통계량 카이제곱 검정통계량 식 : x^2 = su..
0221 만만한 통계 R - 선형회귀, 단순회귀, 다중회귀 (18) CP18 선형회귀 1) 선형회귀 단순회귀분석 (simple regression) : 독립변수가 하나, 종속변수는 하나 다중회귀분석 (multiple regression) : 독립변수가 2개 이상, 종속변수는 하나 - 회귀분석 : 오차를 가장 적게 만들어주는 선을 찾는 것을 의미함. (오차가 줄어야 예측하기가 쉬우니) - 독립변수 = X변수 - 종속변수 = Y변수 최적선 : 주어진 데이터 셋의 데이터에 가장 잘 맞는 라인 회귀선 : 데이터 세트에서 두 변수 간의 관계를 추정하는데 사용되는 직선 (독립 변수 값을 기반으로 종속 변수 값을 예측) 예측 오차 : 종속 변수의 예측 값과 데이터 세트에서 실제 관찰된 값 간의 차이 2) 절편과 기울기 기울기 : X편차*Y편차합 / X편차제곱합 (X분산이 들어가는 이..
0220 만만한 통계 R - 상관계수 계산 및 유의성 검정, 보건의료(7,17) C7 상관계수 계산하기 1) 상관관계 상관계수 : 기술통계 값의 범위는 -1
0217 만만한 통계 R - 평균 차이 검정, 분산분석(ANOVA)(14,15) 14C 평균 차이 검정 1) 짝지은 표본 T검정 # 짝지은 표본 t검정 # 사전 / 사후 통증 정도의 차이 # 새로운 무릎 통증 치료제의 효과를 증명하기 위해 # 노인 20명에게 통증 치료제 투여 # 가설 : 사전 통증 정도와 사후 통증 정도의 차이가 있을 것이다. # 짝지은 표본 t검정 실습 options(scipen = 99) # 데이터 불러오기 library(readxl) data 정확한 표현 : xbar != xbar2 or xbar1 != xbar3 or xbar2 = xbar3 4) 검정통계량(획득된 값)의 계산 // 자유도를 나누기 전 F 비율 집단 간 제곱합(SSB) = MSB // K-1 (기억) 집단 내 제곱합(SSW) = MSW // N-K MSB / MSW = F (분산분석표) 자유..

728x90
반응형