CP7
Q1.
A
# Q1 - A
data <- read.csv("./Syntax(R)/07/ch7ds2.csv")
nc <- data$Number.Correct
at <- data$Attitude
# nc 편차
nc_var <- mean(nc)
nc_dev <- nc - nc_var
# at 편차
at_var <- mean(at)
at_dev <- at - at_var
# 분자
num <- sum(nc_dev*at_dev)
# 분모
snum <- sqrt((sum(nc_dev^2))*(sum(at_dev^2)))
# 식
num/snum
cor(nc,at)
# Q1 - B
plot(nc,at)
식에 따라 구해준다.
B
# Q1 - B
plot(nc,at)
우상향이기 떄문에 직접 상관관계이다.
Q2.
# Q2
data <- read.csv("./Syntax(R)/07/ch7ds3.csv")
data
sp <- data$Speed
st <- data$Strength
cor(sp,st)
plot(sp,st)
직접 상관관계가 있지만 효과는 미미하다. 허나 r2에 비교시에는 좀 더 상관관계가 있음을 알 수 있다.
Q3.
+0.71 > -0.62 > +0.47 > -0.45 > +0.36
순서
Q4.
# Q4
data <- read.csv("./Syntax(R)/07/ch7ds4.csv")
data
ach <- data$Ach.Inc
bu <- data$Budget.Inc
cor(ach,bu)
수업 예산이 증가할 수록 성취도가 0.64의 중간 정도의 강도만큼 직접상관관계가 있음을 알 수 있다.
따라서 적절한 수업 예산을 증가하는 방향으로 나아가야 한다.
Q5.
# Q5
data <- read.csv("./Syntax(R)/07/ch7ds5.csv")
data
ex <- data$Exercise
gpa <- data$GPA
cor(ex,gpa)
공부 시간이 늘어날 수록 gpa가 0.49의 중간 정도의 강도만큼 직접상관관계가 있음을 알 수 있다.
따라서 gpa를 올리기 위해서는 공부 시간을 늘려야 할 것으로 보인다.
Q6.
# Q6
rt <- c(23,12,15,14,16,21,14,11,18,9)
gpa <- c(3.95,3.90,4.00,3.76,3.97,3.89,3.66,3.91,3.80,3.89)
cor(rt,gpa)
scatterplot(rt,gpa)
상관관계수가 낮은 이유는 단적인 우상향 그래프가 아니기 때문이다. 산점도 분석 결과 15~16시간 공부시간을 사용했을 때의 상관관계수가 높은 것으로 확인된 것은, 너무 과하거나 적은량의 공부 시간은 gpa를 낮추는 상관성이 있음을 알 수 있다.
Q7.
A : 상관계수는 결정계수의 제곱근이기 때문에 0.64^2는 0.8이다.
B : 0.7보다 크기 때문에 높은 강도의 상관관계수를 나타낸다.
C : 결정계수만 있을 때 분산을 구하는 방법은 1 - 결정계수이기 때문에 1 - 0.64 = 0.36이다.
따라서 36%의 설명되지 않은 분산이 있음을 확인할 수 있다.
(자세히 설명하자면 64%의 결정계수는 변수의 변동 중 64%를 다른 변수의 변동으로 설명할 수 있음을 의미하는데
100%에서 나머지 36%는 설명되지 않은 분산을 의미한다는 뜻이다.)
Q8.
# Q8
data <- read.csv("./Syntax(R)/07/ch7ds6.csv")
data
cor_matrix <- cor(data[c("Age","Level","Score")])
cor_matrix
Q9.
성별과 지지 정당 사이의 관계 : 파이 상관계수의 상관관계
이유1 : 이분법적 변수이기 때문에 파이 상관계수가 적절하다.
가족구성과 고등학교 성적 사이의 관계 : 점 이연 상관계수
이유 1: 두 변수가 모두 연속적이고 정규분포이기 때문에 피어슨 상관계수가 적절하지만
하나의 변수가 연속적이고 다른 변수가 범주가 두개일 경우에는 점 이연 상관계수가 적절하다.
Q10.
인과론으로 생각할 경우 결과의 해석이 편향적일 수 있기 때문이다. 예를 들어 최종 학력이 높을 수록 수입이 증가한다는 경향을 나타내는 상관관계수를 발견하고 인과론적으로 사고한다면 모두가 높은 학력을 가져야 고수입을 벌 수 있다라는 식으로 사회의 시선이 하나의 방향으로 꽂혀 인간의 존엄성인 자유를 침해할 수 있기 때문이다.
Q11.
상관관계 없음 : 상관관계가 0이기 때문에 상관계수 데이터 자체가 없다.
약한 상관관계 : 데이터로 감지하기 어려울 정도로 약한 상관계수인 경우에 해당 된다.
가짜 상관관계 : 두 변수 사이에 가짜 상관관계가 있는데 이는 두 변수 모두와 관련된 세 번째 변수로 인한 경우에 발생한다. 그렇기 때문에 원인을 확인하기 위해 추가 조사가 필요하다.
Q12. 변수 간의 인과 관계를 증명하는 도구로 상관 관계를 사용할 수 없는 이유.
인과관계를 설명하기 위해서는 두 변수 이외의 다른 변수가 있을 수 있기 때문에 상관관계 이상의 것이 필요하기 떄문이다.
따라서 인과관계를 증명하기 위해서는 실험설계, 회귀분석과 같은 방법을 통해 인과관계를 규명해야 한다.
Q13. 언제 부분 상관을 이용할 수 있는지
추가 변수의 효과를 제어하면서 두 변수 간의 관계를 조사하려는 경우에 사용된다. 하나 이상의 다른 변수의 영향을 일정하게 유지하면서 두 변수 간의 연관성을 검사한다.
예를 들어 키와 몸무게 사이의 관계에 관심이 있지만 성별이 키와 몸무게 모두와 관련되어 있다는 것도 알고 있다고 가정합니다. 성별을 통제하면서 키와 몸무게 사이의 관계를 조사하기 위해 부분 상관을 사용할 수 있습니다.
CP17
Q1
* A 20명 // 0.567 // 0.01 // 단측 (df=n-2)
결과 : 0.01 유의성에서 단측검정을 할 경우 0.5155이기 때문에 문제에서 제시된 상관계수인 0.567는 유의하지 않다.
* B 80명 // -0.45 // 0.05 // 단측 or 양측
결과 : 0.05 유의성에서 단측검정을 할 경우 0.1829이기 때문에 제시된 상관계수인 -0.45는 유의하지 않다. 또한 단측검정을 선택한 이유는 직접상관계수만을 가지고 결과를 산출하기 때문에 선택하였다.
* C 50명 // 0.37 // 0.05 // 양측
결과 : 0.05 유의성에서 양측검정을 할 경우 0.2875이기 때문에 제시된 상관계수인 0.37은 유의하지 않다.
Q2
*코드
# Q2
data <- read.csv("./Syntax(R)/17/ch17ds2.csv")
m <- data$Motivation
g <- data$GPA
# a 상관관계수
cor(m,g)
# b 유의성 검정
cor.test(m,g)
# c
a)
b)
양측검정에서 p-value는 0.9917이기 때문에 동기부여와 평균 학점과의 상관관계는 유의하다.
c) 동기부여가 높을 수록 학점이 높을 뿐이기에 공부 시간의 변수는 확인할 수 없어서 확실한 대답은 할 수 없다.
Q3
* 코드
# Q3
data <- read.csv("./Syntax(R)/17/ch17ds3.csv")
ic <- data$Income
loe <- data$Level.of.Education
# a 상관관계수
cor(ic,loe)
# b 유의성 검정
cor.test(ic,loe)
scatterplot(ic,loe)
a)
b)
p-value가 0.002973이기 때문에 소득와 교육수준의 상관관계는 유의하다.
c) 인과론적으로 사고할 수는 없지만 낮은 교육 수준일 경우 낮은 소득과의 연관성이 있기 때문에
사회적으로 통용되는 범위의 교육 수준은 필요할 것이다.
Q4.
* 코드
a) 상관계수 중요성 (학습 시간 & 학년)
상관계수가 0.68이며 중간 정도의 강도로 양의 상관계수를 띄기 때문에 학습 시간과 성적 사이의 상관계수는 중요하다고 볼 수 있다. 다만 현재 문제에서는 학년을 제시하므로 애초에 구할 수가 없다. 그래서 번역이 잘못된 것으로 알고 학습 시간과 성적 사이의 상관계수로 처리하였다.
b) 상관관계 해석 (공부시간 & 시험성적)
상관계수가 0.68이기 때문에 공부 시간이 증가할 수록 성적이 증가하는 직접 상관관계를 띈다고 결론을 내릴 수 있다.
c) 얼마나 많은 분산이 공유 되는지? (결정계수)
분산이 공유된다는 것은 결정계수를 의미하는 것이기 때문에 0.4624만큼 공유된다는 것을 알 수 있다.
중간 정도의 상관관계에 해당되기 때문에 많은 분산이 생기는 것은 아니다.
d) 이 결과를 어떻게 해석할 수 있는지
따라서 공부시간이 증가할 수록 성적이 증가하는 직접 상관관계가 있지만
중간정도의 강도를 지니고 있다는 것을 알 수 있다. 따라서 성적을 올리기 위해서
공부시간을 늘리는 것도 하나의 방법으로도 볼 수 있다.
Q5 50명 학부생 // 상관계수 0.373 // 유의수준 0.01 (양측검정)
a) 상관관계가 유의한가?
상관계수가 0.373이기 때문에 유의하다.
b) "연구에서 수집한 데이터를 엄격하게 분석한 결과, 커피를 적게 마시면 스트레스가 줄어든다는 결론에 이르렀습니다"라는 문구에서 문제점을 찾으시오.
인과론적으로 사고하는 방식으로 생각하는 것보다 커피를 적게 마시는 것에 따라 스트레스가 줄어든다는 연관성이 있다는 것을 확인할 수 있었다.라고 이야기를 하면 좋을꺼 같다. 결론을 내려버리면 인과론적으로 사고할 수 있기 때문에 해석의 다양성을 위해 객관적으로 정의해야 한다.
Q6 상관관계 데이터 분석
* 코드
# Q6
y <- c(12,15,9,7,18,24,15,16,21,15)
k <- c(6,8,4,5,14,20,7,6,18,17)
#
cor(y,k)
cor.test(y,k)
scatterplot(y,k)
a) 연령과 아는 단어 수의 상관관계
0.83으로 높은 강도의 상관 관계에 있다.
b) 0.05 유의수준에서 상관관계의 유의성을 검정한다.
p-value 0.0028로 유의한 수준을 나타낸다.
c) 7장에서 상관계수에 대해 배운 내용을 기억하고, 상관관계를 해석해라.
결국 상관관계란 쉽게 말하면 두 변수 사이의 상관성을 수치화한 것으로 하나의 변수의 크기가 커짐에 따라
다른 변수의 크기가 어느 정도의 영향이 있는지 분석하고자 하는 것을 의미한다.
따라서 해당 상관관계는 0.83에 해당되는 높은 강도의 상관관계성을 나타내기 때문에
연령이 높아질 수록 아는 단어 수가 많아지는 것을 알 수 있다.
Q7. 사례를 제시하여 하나의 변수가 다른 하나의 원인이 될 수 없다는 일반적인 개념에 관해 논의하시오.
(아이스크림 범죄 사례 제외)
예를 들어 근무 시간이 많을 수록 연봉이 높다는 상관관계를 제시할 경우
연봉이 올라가는 이유가 근무 시간 때문이라고 편향적 해석을 할 수 있기 때문이다.
왜냐하면 통계는 다양한 변수 간의 관계성을 통해서 서로 다른 변수가 서로 영향을 미칠 수 있다는
가능성을 제시하고 그에 따라 다양한 해석을 할 수 있는 것인데 인과론적으로 사고할 경우
앞서 설명한 편향적 해석으로 인해 잘못된 해석이 나올 수 있다.
Q8. 여러 개의 변수 상관관계 분석
* 코드
# Q8
library(readxl)
data <- read.csv("./Syntax(R)/17/ch17ds5.csv" )
head(data)
str(data)
# 데이터 조건식 (문자형 데이터 숫자형으로 치환)
data$Shoe.Size <- ifelse(data$Shoe.Size == "Small", 1,
ifelse(data$Shoe.Size == "Medium", 2, 3))
# 숫자 데이터만 출력
numeric_cols <- data[,sapply(data, is.numeric)]
# 산점도 분석
pairs(numeric_cols)
# 산점도, 추세선, 상관계수, *로 표시된 유의확률
library(PerformanceAnalytics)
chart.Correlation(data,method = c("pearson"))
* 산점도 분석
A) 유의한 상관관계는?
신발 & 나이
신발 & 교육 수준
나이 & 교육 수준
B) 더 중요한 상관관계는?
신발 & 나이
0.94의 유의성이 있기 때문
C) 그리고 어떤 상관관계가 의미있는지.
지능 변수에 대한 다른 변수들 간의 상관관계가 의미가 있는 것으로 보인다.
지능이 나이, 신발사이즈, 교육수준과 큰 상관관계가 없다는 것을 알 수 있고
일반적인 상식으로 지능이 높을 수록 교육 수준도 높을 것으로 예상 했지만
-0.20으로 오히려 관련이 없는 간접 상관관계를 띄었다.
'개인공부 정리 > 문제풀이' 카테고리의 다른 글
0510 자바 정석 연습 문제 - 연산자, 조건문 (수정중) (0) | 2023.05.11 |
---|---|
CP18 ~ CP19 문제풀이 (1) | 2023.02.22 |
CP9 ~ CP11 문제 풀이 (수정중) (0) | 2023.02.17 |
CP12 ~ CP15 문제 풀이(수정중) (0) | 2023.02.17 |
CP3 ~ CP5 문제 풀이 (0) | 2023.02.16 |