본문 바로가기

배운 책들 정리/만만한 통계 : R 활용

0214 만만한 통계 R - 가설검정, 확률의 중요성 (09,10)

PART 4 재미와 이윤, 두마리 토끼 잡기

C9. 가설검정.

1) 표본과 모집단

표본 : 부분집합

모집단 : 전체집합 // 변함이 없음 (결과값은 항상 하나)

오차(표본오차) : 모집단과 표본의 차이

표준오차 : 표본오차들을 표준편차(s)처럼 하나의 값으로 나타낸 것! // (가설을 검증하기 위해 구하는 값)

표준편차 : 관측치 - 평균 = 편차 -> 하나로 평균 // (데이터의 변동성을 확인하기 위해 구하는 값)

표본오차 : 표본평균 - 모수(모평균)

s = sd (표준편차)

n = 표본크기

 

2) 귀무가설

귀무가설 : 오차가 없다라는 것을 내는 것. (결과는 0이다) (차이가 없다)

연구가설(대립가설) : ??차이가 있다는 것을 내는 것 (차이가 있다)

- 양측 검정 : 양쪽방향을 모두 봐야하는 검정

- 단측 검정 : 한쪽 방향만 보는 검정

 

C10. 확률의 중요성

1) 추론 통계 : 표본통계량을 통해서 모수를 구하는 것

- 유의 확률 : 우연히 발생한 확률

- 유의 확률이 유의 수준보다 크다면 우연히 발생한거라는 뜻

- 유의 확률이 유의 수준보다 작으면 우연히 발생하지 않은거라는 뜻.

 

2) 정규분포 & 정규곡선

- 평균 = 중앙값 = 최빈값

- 평균을 기준으로 좌우대칭이 된다.

- 양 끝의 선이 축에 닿지 않는다 (0에 닿지 않는다는 뜻) 점근적 꼬리

 

3) Z 점수 (검정통계량) (SCORE)

- Z 점수의 의미

- Z 점수는 확률이라는 뜻

- 유의확률은 Z점수에서 선을 그려서 구하는 것

- 임계값 : 유의 확률 선에 있는 것.

- z score를 구하면 다 비교할 수 있다.

 

9. 가설검정

기각역 : 귀무가설을 버리는 것 (연구가설)

채택역 : 채택하는 영역 (귀무가설) // 연구가설을 기각할 것인가

 

3. 치우침

첨도 : 위아래로 퍼짐 (엄마곰A,B,아빠곰C)

왜도 : 좌우 개념으로 퍼짐 

 

# 9. 가설검정
# 가설(hypothesis): 추측(학습을 바탕으로 한), 연구목적에 맞는 질문,                             
# 밝히고자 하는 것, 명확하고 간결하게게
# 가설1(귀무가설) - 차이(효과)가 없음  = 0
# 가설2(대립가설) - 차이(효과)가 있음 != 0                                    
# ***가설1 + 가설2 = 전체사건,가설1과 가설2는 상호배타적
# 표본: 모집단을 대표하는 집단, 대표성있는 좋은 표본은 일반화 가능
# 표본오차(!=표준오차. 표본통계량과 모평균의 차이. 편차(dev) 개념)
# 표준오차 : 표본오차들을 표준편차(s)처럼 하나의 값으로 나타낸 것!        
# ***관측치(표본통계량 ex.표본평균) - 평균(모수 ex.모평균) = 편차(표'본'오차)                                                     
# => 표준편차(표'준'오차)
# 귀무(歸無)가설(=영(zero)가설): null, 0, 차이X, '모집단'에 관한 것,                                         
# H0, ex) H0: mu1 - mu2 = 0

# 연구가설(대립가설): 연구(분석)의 목적, 0이 아님, 차이O, '표본'에 관한 것,                       
# H1, ex) H1: x1_bar - x2_bar != 0
# 1) 양측검정(=비방향성 연구가설) - 양쪽방향을 모두 봐야하는 검정
# 2) 단측검정(=방향성 연구가설) - 한쪽방향만 보는 검정

# 가설 검정 절차                                                              
# 가설 설정(H0, H1) > 유의수준 설정(a-value) >                            
# 검정통계량 계산&유의확률 > 유의성 검정(임계값&유의수준) >                   
# 결론(가설 채택/기각)



# 확률: 정규곡선&추론통계의 기초, 신뢰수준을 결정하는 기초(1 - 유의수준(a))   
# ***정규분포에서 꼬리쪽(유의수준)을 제외한 몸통(신뢰수준)

# 정규분포(=정규곡선): 1)평균=중앙값=최빈값 2)평균에 좌우대칭 3)점근적 꼬리   
# ***중심극한정리: 관측값이 충분히 크면(30개 이상) 정규분포 모양을 띈다!      
# 경험법칙: 평균±1표준편차=전체68.26%  ≒  Q1 ~ Q3(=Q3-Q1=IQR) /                         평균±2표준편차=전체95.44%                                                   평균±3표준편차=전체99.74%  ≒  Q1-1.5*IQR ~ Q3-1.5-IQR

# z 점수: 표준편차 단위로 표준화된 점수!                                      
# 표준점수를 비교하기 위해                                                    
# (평균-평균으로 중심 0, 편차들을 표준편차로 나눠서 1,2,3...)                 
# 평균보다 큰 점수는 양의 z점수, 평균보다 작은 점수는 음의 z점수

# z 점수 구하기(개별점수-평균 / 표준편차 = 편차 / 표준편차)
x <- c(12,15,11,13,8,14,12,13,12,10)
x_bar <- mean(x)
dev <- x-x_bar
x_sd <- sd(x)
z_score <- (x-x_bar)/x_sd
dev/x_sd
# 함수(scale)
scale(x) #바로 z점수..!(리스트 형태)
z_fx <- as.data.frame(scale(x)) #데이터프레임 형태로 변환
colnames(z_fx) <- "z_score" #변수이름호출, 삽입입
head(z_fx) #데이터 앞 6개(default)
tail(z_fx,3) #데이터 끝 3개
View(z_fx)  #새 창으로 데이터 보기('V'는 대문자!) 
str(z_fx) #데이터 구조로 보기기

12라고 적혀있는게 평균

2라고 적혀있는게 표준편차

head : 데이터 앞부분

tail : 데이터 뒷부분

view

새 창으로 데이터 보기

 

 

 

* 핵심 키워드

- 가설 설정 종류

- Z점수

- 정규분포

- 결국 이 모든 건 확률(유의확률)을 위해서

 

유의성이 적다 = 우연성이 적다. (유의확률이 작은게 좋은거다 = 변동성이 적다는 뜻)

 

H0 귀무가설

H1 연구가설(대립가설)

 

표준오차 : 표준 오차는 데이터 샘플의 추정 평균 변동성을 측정한 것입니다. 모집단의 실제 평균을 포함할 가능성이 있는 값의 범위인 평균 주위의 신뢰 구간을 계산하는 데 사용됩니다.

 

728x90
반응형
LIST