Q1.해당 코드에서 xlim과 ylim 값을 설정할 때 0이 들어가는 이유에 대해 설명해주세요.
: midwest <- (ggplot2::midwest) ggplot(data = midwest, aes(x=poptotal, y=popasian))+ geom_point() + xlim(0,500000) + ylim(0,10000)
주어진 코드에서 xlim 및 ylim 함수는 각각 에 의해 생성된 플롯에서 x축과 y축의 한계를 설정하는 데 사용됩니다.
ggplot. (0,500000) 및 (0,10000) 값은 각각 x축과 y축의 최소값과 최대값을 지정합니다.
In 이 경우 값 0은 x축과 y축 모두에 대한 하한값으로 입력됩니다. 이는 플롯이 인구 수에 대한 데이터를 표시하고 있고 음수 인구를 갖는 것이 이치에 맞지 않기 때문입니다. 하한을 0으로 설정하면 플롯에 양수 인구 수만 표시됩니다.
따라서 xlim(0,500000) 함수는 call은 x축 제한을 0에서 500,000 사이로 설정하고 ylim(0,10000)은 y축 제한을 0에서 10,000 사이로 설정합니다.
Q2. 해당 코드의 중요성에 대해 설명해줄 수 있니?
: options(scipen = 99)
options(scipen = 99) 코드는 R이 과학적 표기법으로 숫자 값을 표시하는 방식을 변경합니다.
기본적으로 R은 숫자가 7자리 이상이거나 -3자리 미만인 경우 과학적 표기법으로 전환합니다.
그러나 이로 인해 특히 테이블이나 도표로 데이터를 표시할 때 숫자를 읽고 비교하기 어려울 수 있습니다.
R의 scipen 옵션을 사용하여 임계값을 조정할 수 있습니다. R은 과학적 표기법으로 전환합니다. scipen을 99와 같은 높은 값으로 설정하면 과학적 표기법을 효과적으로 비활성화하고 R이 항상 전체 형식으로 숫자를 표시하도록 강제합니다.
이는 대규모 작업을 할 때 특히 유용합니다. 수치 값을 쉽게 읽고 비교하기 쉽기 때문입니다.
따라서 작업할 때 options(scipen = 99)를 설정하는 것이 좋은 습관이라고 할 수 있습니다.
Q3. 해당 내용이 이해가 안가. 초등학생이라고 생각하고 쉽게 설명해줄래?
ggplot(data = df, aes(x=reorder(df$manufacturer, -df$mean_cty), y=df$mean_cty)) + geom_col()
- ggplot(data = df, aes(x=reorder(df$manufacturer, -df$mean_cty), y=df$mean_cty)): 이 줄은 R은 ggplot2 패키지를 사용하여 플롯을 생성하고 df 데이터 프레임을 플롯의 데이터 소스로 사용합니다. aes 함수는 플롯의 x축에 자동차 제조업체(데이터 프레임의 manufacturer 열)가 표시되어야 하지만 평균 도시 mpg(데이터 프레임의 mean_cty 열)를 내림차순으로 표시합니다.
- geom_col(): 이 줄은 플롯에 대한 "geom"(기하학적 개체), 이 경우 막대 차트(열 차트)입니다. 막대는 각 자동차 제조업체의 평균 도시 연비를 나타내며 각 막대의 높이는 평균 도시 연비 값에 해당합니다.
전반적으로 이 코드는 각 자동차 제조업체의 평균 도시 연비를 가장 높은 것부터 낮은 순서로 보여주는 막대형 차트입니다. 결과 플롯은 연료 효율이 가장 높거나 낮은 자동차를 생산하는 제조업체를 빠르게 식별하는 데 유용할 수 있습니다
Q4. 해당 코드의 차이가 뭐야? 한쪽은 되고 한쪽은 안 되.
t.test(welfare$income~welfare$sex, var.equal = T) # 됨
t.test.formula(welfare$sex ~welfare$income, var.equal = T) : # 안됨
첫 번째 코드 t.test(welfare$income~welfare$sex, var.equal = T)는 income< /코드> 변수.
이 코드에서 income은 종속 변수이고 sex는 독립 변수입니다.
두 번째 코드 t.test.formula(welfare $sex ~welfare$income, var.equal = T)는
또한 income 변수와 sex 변수를 기반으로 두 그룹의 평균을 비교합니다.
그러나 이 코드에서 sex는 종속 변수이고 income은 독립 변수입니다.
따라서 두 코드는 서로 다른 가설을 테스트하고 있습니다.
첫 번째 코드는 남녀 간 평균 소득 차이가 있는지 테스트하고
두 번째 코드는 소득 수준 간 평균 성별 차이가 있는지 테스트합니다.
* 이해 : 구하고자 하는 값은 성별과 월급의 관계 분석인데 쉽게 말하면 남녀 간 평균 소득 차이가 있는지 확인하기 위해
월급이라는 종속변수의 결과값을 남녀라는 원인을 독립변수를 통해 차이가 있는지를 확인하는 것이다.
'개인공부 정리 > 다양한 질문들' 카테고리의 다른 글
공공데이터 with 샤이니 1~3 질문 - 데이터 분석가, API 크롤링 (0) | 2023.03.06 |
---|---|
0304 sqld 특강 질문 (0) | 2023.03.04 |
0227 만만한 통계 R 외부 챕터 6~8 질문 - 데이터 추출, 데이터 합치기, 데이터 정제, 그래프 (0) | 2023.02.27 |
0224 만만한 통계 R 외부 챕터 4~6 질문 - 데이터 프레임, 데이터 분석, 데이터 가공 (1) | 2023.02.24 |
0223 만만한 통계 R 외부 챕터 15 질문 - 내장 함수, 변수 타입과 데이터 구조 // 기초 문제 연습 (1) | 2023.02.23 |