본문 바로가기

개인공부 정리/다양한 질문들

0227 만만한 통계 R 외부 챕터 6~8 질문 - 데이터 추출, 데이터 합치기, 데이터 정제, 그래프

Q1. 통합 연비를 구하기 위해 여기서 나누기 2를 해주는 이유가 뭐야?

mutate(total = (hwy + cty)/2) %>%
:
mpg %>% 
  filter(class == "suv") %>% 
  mutate(total = (hwy + cty)/2) %>% 
  group_by(manufacturer) %>% 
  summarise(mean_total = mean(total)) %>% 
  head(5)

우리가 통합 연비를 계산하는 이유는 서로 다른 차량의 연비를 비교하기 위해서입니다.

도심 연비와 고속도로 연비는 따로 측정하는데 자동차의 총 연비를 알고자 합니다. 따라서 도시와 고속도로의 연비를 합산하고 2로 나누어 평균을 구합니다. 이것은 우리에게 자동차의 전체 연비를 나타내는 단일 숫자를 제공합니다.

2로 나누면 도시와 고속도로 연비의 평균을 구하게 되어 자동차의 전체 연비를 보다 정확하게 나타낼 수 있습니다. 2로 나누지 않으면 두 개의 다른 단위(도시 및 고속도로의 경우 갤런당 마일)를 추가하게 되므로 수학적으로 이치에 맞지 않습니다.

 

2로 나누지 않고 합산 연비의 평균을 계산할 때 사용할 수 있습니다. 하지만 코드를 2로 나눈 이유는 합산 연비가 시내와 고속도로의 평균 연비로 계산되기 때문입니다. , 두 개의 별도 측정입니다. 2로 나누는 것은 합계가 아닌 두 측정값의 평균을 구하는 방법입니다.

 

통합 연비는 실제로 갤런당 고속도로 마일(MPG)과 시내 MPG를 함께 더하여 계산됩니다. 그러나 주어진 코드에서 각 자동차 제조업체에 대한 총 MPG의 평균값을 계산하고 있습니다. 각 제조사에서 만든 자동차의 평균 연비를 알고 싶기 때문입니다.

고속도로와 도심 연비를 더한 뒤 2로 나누는 이유는 두 가지 주행 조건에서 자동차의 평균 연비를 찾고 싶기 때문입니다. 이것은 자동차가 고속도로와 시내 주행에서 다르게 작동할 수 있기 때문에 중요하므로 두 가지를 모두 고려한 전체 평균을 얻고자 합니다.

따라서 고속도로와 도심 MPG를 더하고 2로 나누어 총 MPG를 계산한 다음 각 자동차 제조업체의 총 MPG 값의 평균을 취하여 자동차의 평균 연비가 어느 정도인지 파악합니다.

 

통합연비를 구하기 위해서 hwy+cty/2를 하는 이유가 hwy+cty만 더하면 더한

 

 

Q2. 해당 식을 이해 못하겠습니다.

(poptotal-popadults)/poptotal)*100

이 식은 비성인으로 구성된 인구의 백분율을 계산합니다. 다음은 표현을 분석한 것입니다.

  • poptotal: 총인구
  • popadults: 성인 인구
  • (poptotal-popadults): 성인이 아닌 인구를 계산합니다.
  • (poptotal-popadults)/poptotal: 전체 인구에서 성인이 아닌 사람의 비율을 계산합니다.
  • ((poptotal-popadults)/poptotal)*100: 비율에 100을 곱하여 인구에서 성인이 아닌 사람의 비율을 구합니다.

 

Q3. omit을 쓰는 것과 쓰지 않는 것의 차이가 뭐야

10명의 학생들로 구성된 반이 있는데 학생들의 평균 키를 찾고 싶다고 해요. 하지만 키를 재는 날에는 학생 한 명이 결석합니다. 결석한 학생을 포함해서 10명의 학생들의 평균 키를 계산해보면 자료점 하나가 빠져있어서 정확하게 수업의 키를 나타내지 못할 수도 있어요.

이는 na.omit()를 사용하지 않고 mean() 함수를 사용하는 것과 비슷합니다. 데이터에 결측값이 있고 na.omit()을 사용하지 않는 경우 결측값은 유효한 데이터인 것처럼 처리되고 평균 계산에 포함됩니다. 이로 인해 결과가 왜곡되고 데이터가 부정확하게 표시될 수 있습니다.

반면 na.omit()을 사용하면 결측 데이터 점을 제거하고 유효한 데이터 점만 사용하여 평균을 계산합니다. 이를 통해 데이터를 보다 정확하게 표현할 수 있습니다.

요약하자면, na.omit()을 사용하면 데이터에서 결측값을 제거하는 데 도움이 되며, 평균과 같은 보다 정확하고 대표적인 요약 통계량을 얻는 데 도움이 될 수 있습니다.

728x90
반응형
LIST