PART 4 재미와 이윤, 두마리 토끼 잡기
C9. 가설검정.
1) 표본과 모집단
표본 : 부분집합
모집단 : 전체집합 // 변함이 없음 (결과값은 항상 하나)
오차(표본오차) : 모집단과 표본의 차이
표준오차 : 표본오차들을 표준편차(s)처럼 하나의 값으로 나타낸 것! // (가설을 검증하기 위해 구하는 값)
표준편차 : 관측치 - 평균 = 편차 -> 하나로 평균 // (데이터의 변동성을 확인하기 위해 구하는 값)
표본오차 : 표본평균 - 모수(모평균)
s = sd (표준편차)
n = 표본크기
2) 귀무가설
귀무가설 : 오차가 없다라는 것을 내는 것. (결과는 0이다) (차이가 없다)
연구가설(대립가설) : ??차이가 있다는 것을 내는 것 (차이가 있다)
- 양측 검정 : 양쪽방향을 모두 봐야하는 검정
- 단측 검정 : 한쪽 방향만 보는 검정
C10. 확률의 중요성
1) 추론 통계 : 표본통계량을 통해서 모수를 구하는 것
- 유의 확률 : 우연히 발생한 확률
- 유의 확률이 유의 수준보다 크다면 우연히 발생한거라는 뜻
- 유의 확률이 유의 수준보다 작으면 우연히 발생하지 않은거라는 뜻.
2) 정규분포 & 정규곡선
- 평균 = 중앙값 = 최빈값
- 평균을 기준으로 좌우대칭이 된다.
- 양 끝의 선이 축에 닿지 않는다 (0에 닿지 않는다는 뜻) 점근적 꼬리
3) Z 점수 (검정통계량) (SCORE)
- Z 점수의 의미
- Z 점수는 확률이라는 뜻
- 유의확률은 Z점수에서 선을 그려서 구하는 것
- 임계값 : 유의 확률 선에 있는 것.
- z score를 구하면 다 비교할 수 있다.
9. 가설검정
기각역 : 귀무가설을 버리는 것 (연구가설)
채택역 : 채택하는 영역 (귀무가설) // 연구가설을 기각할 것인가
3. 치우침
첨도 : 위아래로 퍼짐 (엄마곰A,B,아빠곰C)
왜도 : 좌우 개념으로 퍼짐
# 9. 가설검정
# 가설(hypothesis): 추측(학습을 바탕으로 한), 연구목적에 맞는 질문,
# 밝히고자 하는 것, 명확하고 간결하게게
# 가설1(귀무가설) - 차이(효과)가 없음 = 0
# 가설2(대립가설) - 차이(효과)가 있음 != 0
# ***가설1 + 가설2 = 전체사건,가설1과 가설2는 상호배타적
# 표본: 모집단을 대표하는 집단, 대표성있는 좋은 표본은 일반화 가능
# 표본오차(!=표준오차. 표본통계량과 모평균의 차이. 편차(dev) 개념)
# 표준오차 : 표본오차들을 표준편차(s)처럼 하나의 값으로 나타낸 것!
# ***관측치(표본통계량 ex.표본평균) - 평균(모수 ex.모평균) = 편차(표'본'오차)
# => 표준편차(표'준'오차)
# 귀무(歸無)가설(=영(zero)가설): null, 0, 차이X, '모집단'에 관한 것,
# H0, ex) H0: mu1 - mu2 = 0
# 연구가설(대립가설): 연구(분석)의 목적, 0이 아님, 차이O, '표본'에 관한 것,
# H1, ex) H1: x1_bar - x2_bar != 0
# 1) 양측검정(=비방향성 연구가설) - 양쪽방향을 모두 봐야하는 검정
# 2) 단측검정(=방향성 연구가설) - 한쪽방향만 보는 검정
# 가설 검정 절차
# 가설 설정(H0, H1) > 유의수준 설정(a-value) >
# 검정통계량 계산&유의확률 > 유의성 검정(임계값&유의수준) >
# 결론(가설 채택/기각)
# 확률: 정규곡선&추론통계의 기초, 신뢰수준을 결정하는 기초(1 - 유의수준(a))
# ***정규분포에서 꼬리쪽(유의수준)을 제외한 몸통(신뢰수준)
# 정규분포(=정규곡선): 1)평균=중앙값=최빈값 2)평균에 좌우대칭 3)점근적 꼬리
# ***중심극한정리: 관측값이 충분히 크면(30개 이상) 정규분포 모양을 띈다!
# 경험법칙: 평균±1표준편차=전체68.26% ≒ Q1 ~ Q3(=Q3-Q1=IQR) / 평균±2표준편차=전체95.44% 평균±3표준편차=전체99.74% ≒ Q1-1.5*IQR ~ Q3-1.5-IQR
# z 점수: 표준편차 단위로 표준화된 점수!
# 표준점수를 비교하기 위해
# (평균-평균으로 중심 0, 편차들을 표준편차로 나눠서 1,2,3...)
# 평균보다 큰 점수는 양의 z점수, 평균보다 작은 점수는 음의 z점수
# z 점수 구하기(개별점수-평균 / 표준편차 = 편차 / 표준편차)
x <- c(12,15,11,13,8,14,12,13,12,10)
x_bar <- mean(x)
dev <- x-x_bar
x_sd <- sd(x)
z_score <- (x-x_bar)/x_sd
dev/x_sd
# 함수(scale)
scale(x) #바로 z점수..!(리스트 형태)
z_fx <- as.data.frame(scale(x)) #데이터프레임 형태로 변환
colnames(z_fx) <- "z_score" #변수이름호출, 삽입입
head(z_fx) #데이터 앞 6개(default)
tail(z_fx,3) #데이터 끝 3개
View(z_fx) #새 창으로 데이터 보기('V'는 대문자!)
str(z_fx) #데이터 구조로 보기기
12라고 적혀있는게 평균
2라고 적혀있는게 표준편차
head : 데이터 앞부분
tail : 데이터 뒷부분
새 창으로 데이터 보기
* 핵심 키워드
- 가설 설정 종류
- Z점수
- 정규분포
- 결국 이 모든 건 확률(유의확률)을 위해서
유의성이 적다 = 우연성이 적다. (유의확률이 작은게 좋은거다 = 변동성이 적다는 뜻)
H0 귀무가설
H1 연구가설(대립가설)
표준오차 : 표준 오차는 데이터 샘플의 추정 평균 변동성을 측정한 것입니다. 모집단의 실제 평균을 포함할 가능성이 있는 값의 범위인 평균 주위의 신뢰 구간을 계산하는 데 사용됩니다.
'배운 책들 정리 > 만만한 통계 : R 활용' 카테고리의 다른 글
0220 만만한 통계 R - 상관계수 계산 및 유의성 검정, 보건의료(7,17) (0) | 2023.02.20 |
---|---|
0217 만만한 통계 R - 평균 차이 검정, 분산분석(ANOVA)(14,15) (1) | 2023.02.17 |
0216 만만한 통계 R - 독립 표본 t 검정, 종속 표본 t 검정 (0) | 2023.02.16 |
0215 만만한 통계 R - 유의성 검사 및 단일 표본 z 검정 (11,12) (0) | 2023.02.16 |
0213 만만한 통계 R - 기술 통계(평균,중앙,최빈값), 표준편차, 분산 (0) | 2023.02.13 |