본문 바로가기

개인공부 정리/다양한 질문들

0214 만만한 통계 R 질문 - 가설검정, 확률의 중요성 (09,10)

Q1. 평균이 100이고 표준편차가 10인 분포에서 어떤 점수가 110점 이상이 될 확률은 얼마인가요?

 

평균이 100이고 표준 편차가 10인 정규 분포에서 110점 이상의 점수가 나올 확률은 표준 정규 분포 표 또는 통계 소프트웨어를 사용하여 계산할 수 있습니다.

먼저 평균에서 표준 편차의 수를 나타내는 표준 점수(z-score)를 찾아야 합니다. z-점수를 계산하는 공식은 다음과 같습니다.

z = (x - μ) / σ

여기서 x는 점수, μ는 평균, σ는 표준편차입니다.

따라서 110점의 경우:

지 = (110 - 100) / 10 지 = 1

이제 표준 정규 분포표를 사용하여 점수가 1보다 높을 확률을 찾을 수 있습니다.

일반적으로 이 표는 z 점수보다 작거나 같은 점수를 받을 확률을 나타내는 z 점수 왼쪽의 표준 정규 곡선 아래 영역을 보여줍니다. z 점수보다 높은 점수를 얻을 확률을 찾기 위해 1에서 왼쪽 영역을 뺍니다.

이 경우 110점 이상의 점수를 받을 확률은 1 - 0.8413 = 0.1587입니다.

따라서 평균이 100이고 표준 편차가 10인 정규 분포에서 110보다 높은 점수를 얻을 확률은 0.1587입니다.

 

Q2. z점수와 가설 검정에 대해 자세히 설명해줄래?

z 점수는 주어진 값이 데이터 세트의 평균과의 표준 편차 수를 나타내는 표준 점수입니다. 다음과 같이 계산됩니다.

z = (x - μ) / σ

여기서 x는 평가되는 값이고 μ는 데이터 세트의 평균이며 σ는 데이터 세트의 표준 편차입니다.

z 점수는 모집단 매개변수에 대한 주장이나 가설을 테스트하는 통계 절차인 가설 테스트를 수행하는 데 사용할 수 있습니다. z 점수는 모집단 평균과 비교하여 표본 평균의 유의성을 평가하는 데 사용됩니다.

z 점수가 -1.96~1.96 범위를 벗어나면 통계적으로 유의한 것으로 간주되며

표본 평균이 모집단 평균과 유의하게 다르다는 것을 시사합니다.

 

가설 검정에서는 두 가지 유형의 오류가 발생할 수 있습니다. 참 귀무가설이 기각되는 제1종 오류와 거짓 귀무가설이 기각되지 않는 제2종 오류입니다. z 점수는 이러한 오류의 확률을 계산하고 가설 테스트에 대한 적절한 유의 수준을 결정하는 데 사용할 수 있습니다.

 

Q3. 빅데이터에서는 유의 확률이 높은지에 대해 설명해줄래?

빅 데이터의 유의 확률은 샘플 크기, 데이터 분포 및 테스트 중인 가설과 같은 여러 요인에 따라 달라집니다. 빅 데이터에서는 표본 크기가 매우 클 수 있으므로 가설 검정의 힘이 증가하여 데이터의 차이 또는 관계를 더 쉽게 감지할 수 있습니다. 그러나 데이터의 분포도 유의 확률에 영향을 미칠 수 있습니다. 경우에 따라 빅 데이터에는 가설 검정의 유효성에 영향을 줄 수 있는 이상치 또는 기타 비정규 기능이 포함될 수 있습니다.

높은 유의 확률이 반드시 데이터의 강력한 관계 또는 유의미한 차이를 나타내지는 않는다는 점을 기억하는 것이 중요합니다. 빅 데이터에서 가설 검정의 결과를 평가할 때 고려해야 하는 효과 크기 및 신뢰 구간과 같은 다른 요소도 있습니다.

 

Q4. Z점수를 왜 구해야 하는지 모르겠어 빅데이터 의료 산업과 연관해서 알려줄래?

의료 산업의 빅 ​​데이터 맥락에서 Z-점수는 대규모 데이터 세트에서 특이치 또는

비정상적인 관찰을 식별하는 데 도움이 될 수 있습니다.

Z-점수를 계산하면 표준 편차 측면에서 각 관찰이 샘플 평균에서 얼마나 떨어져 있는지 확인할 수 있습니다. 그런 다음 이 정보를 사용하여 데이터의 오류 또는 이상을 나타낼 수 있는 관찰을 식별할 수 있습니다. 또한 Z-점수를 사용하여 데이터를 표준화할 수도 있으므로 측정 단위나 척도가 다른 변수를 쉽게 비교할 수 있습니다. 예를 들어, 환자의 키와 몸무게 데이터를 표준화하면 키와 몸무게의 측정 단위가 다를 수 있지만 다양한 연령대와 모집단에 걸쳐 환자의 키와 몸무게를 비교할 수 있습니다.

 

Q5. 빈도 푼보를 왜 구하는지 모르겠어 빅데이터 의료 산업과 연관해서 알려줄래?

의료 산업에서 빅 데이터를 사용하려면 많은 양의 데이터를 활용하여 통찰력을 얻고 정보에 입각한 결정을 내립니다. 여기에는 환자 데이터, 임상 시험 데이터, 웨어러블 장치 및 기타 소스의 데이터 분석이 포함될 수 있습니다. 의료 분야에서 빅 데이터를 사용하는 목표는 환자 결과를 개선하고 비용을 절감하며 의료 시스템의 전반적인 효율성을 향상시키는 것입니다. 의료 분야에서 빅 데이터의 일부 특정 응용 프로그램에는 맞춤형 의학, 인구 건강 관리 및 임상 의사 결정 지원이 포함됩니다.

 

Q6. 그렇다면 그 중요성을 첨도(그래프)와 왜도와 연관해서 알려줄래?

통계에서 첨도와 왜도는 데이터 집합의 모양과 분포를 측정하는 중요한 척도입니다.

첨도는 정규 분포와 비교하여 분포의 정점 또는 평탄도를 측정하는 반면 왜도는 분포의 비대칭성을 측정합니다.

데이터 세트의 이러한 속성을 이해하는 것은 빅 데이터 의료를 포함한 많은 분야에서 중요합니다.

 

예를 들어 빅 데이터 의료 분야에서 왜도 및 첨도는 평균 또는 중앙값과 같은 간단한 요약 통계에서 즉시 명확하지 않을 수 있는 환자 데이터의 특정 패턴을 식별하는 데 도움이 될 수 있습니다. 이 정보는 환자 관리 및 치료 계획에 대해 더 많은 정보에 입각한 결정을 내리는 데 사용할 수 있습니다. 또한 데이터 세트의 분포 속성을 알면 데이터 수집 또는 측정의 오류를 나타내거나 추가 조사가 필요한 흥미롭거나 중요한 관찰을 강조할 수 있는 이상치 또는 이상을 식별하는 데 도움이 될 수 있습니다.

 

Q7. 빅데이터 의료 산업에서 데이터 분석을 할 때 모집단과 표본이 각각 어느 상황에서 쓰이는지 말해줄래? (226P)

빅데이터 의료 산업에서는 모집단 데이터와 표본 데이터를 모두 데이터 분석에 사용합니다. 모집단 또는 표본 데이터를 사용하는 선택은 다루는 연구 질문과 데이터 수집 및 분석에 사용할 수 있는 리소스에 따라 다릅니다.

모집단 데이터는 연구 중인 환자, 치료 또는 결과의 전체 모집단에 대한 추론을 목표로 하는 상황에서 사용됩니다.

예를 들어, 목표가 특정 상태에 대한 신약 치료의 효과를 결정하는 것이라면 인구 기반 연구는 해당 상태를 가진 모든 환자에 대한 데이터를 수집하고 그들 모두에게 새로운 약물 치료를 투여하는 것을 포함할 것입니다.

샘플 데이터는 전체 모집단에 대한 데이터를 수집하는 것이 실행 가능하지 않거나 비용 효율적이지 않은 상황에서 사용됩니다. 예를 들어 목표가 특정 질환을 가진 환자의 평균 체질량 지수(BMI)를 결정하는 것이라면 샘플 기반 연구는 질환을 가진 환자의 무작위로 선택된 하위 집합에 대한 데이터를 수집하고 이 데이터를 사용하여 인구 전체에 대한 추론.

빅데이터 헬스케어 산업에서 모집단 데이터와 표본 데이터는 모두 장단점이 있습니다. 모집단 데이터는 연구 중인 전체 모집단에 대한 포괄적인 보기를 제공하지만 수집하고 분석하는 데 리소스와 시간이 많이 소요될 수 있습니다. 샘플 데이터는 모집단에 대한 추론을 만드는 보다 효율적이고 비용 효율적인 방법을 제공하지만 샘플이 제대로 선택되지 않은 경우 모집단을 대표하지 못할 수 있습니다.

두 경우 모두 데이터 분석에 가장 적합한 접근 방식을 선택하기 위해 연구 질문, 사용 가능한 데이터 소스, 데이터 수집 및 분석에 사용되는 방법을 신중하게 고려하는 것이 중요합니다.

 

Q8. 빅데이터 의료 산업에서 데이터 분석을 할 때 표본오차가 높다면 어떤 문제들이 발생할까? (227P)

데이터 분석의 높은 샘플링 오류는 빅 데이터 의료 산업에서 다음과 같은 몇 가지 문제로 이어질 수 있습니다.

  1. 잘못된 결론: 분석에 사용된 샘플 데이터가 모집단을 대표하지 않는 경우 분석에서 도출된 결론이 올바르지 않을 수 있습니다. 이는 결과에서 위양성 또는 위음성으로 이어질 수 있으며, 이는 환자 치료 및 치료 결정에 심각한 영향을 미칠 수 있습니다.
  2. 바이어스: 높은 샘플링 오류는 샘플 데이터의 바이어스로 이어져 분석 결과를 왜곡할 수 있습니다. 이로 인해 모집단에 대한 잘못된 추론이 발생하여 잘못된 결론과 결정으로 이어질 수 있습니다.
  3. 부정확한 예측: 예측 모델링에서 높은 샘플링 오류는 데이터의 미래 추세 및 패턴에 대한 잘못된 예측으로 이어질 수 있습니다. 이것은 환자 치료 및 치료 결정에 심각한 영향을 미칠 수 있습니다.
  4. 신뢰 부족: 샘플링 오류가 높으면 분석 결과에 대한 신뢰도가 낮아져 데이터를 기반으로 내린 결론과 결정을 신뢰하기 어렵습니다.
  5. 비효율적인 리소스 사용: 샘플링 오류가 높으면 추가 데이터 수집 및 분석이 필요할 수 있으며, 이는 시간과 리소스를 많이 소모할 수 있습니다. 이는 데이터 분석 프로세스 및 리소스 사용의 비효율로 이어질 수 있습니다.

빅데이터 헬스케어 산업에서는 데이터 분석의 신뢰성과 정확성을 보장하기 위해 샘플링 오류를 최소화하는 것이 중요합니다. 이것은 신중한 샘플 선택, 적절한 샘플 크기, 분석에서 샘플링 오류를 설명하기 위한 적절한 통계 방법의 사용을 통해 달성할 수 있습니다.

 

Q9. 왜 귀무가설은 다른 정보가 없을 경우 사실로 받아들여지는 상태가 되는건가요? (228P)

귀무가설은 차이가 없거나 효과가 없는 기본 위치를 나타내기 때문에 다른 정보가 없을 때 기본적으로 참으로 받아들여집니다. 가설 검정에서 귀무가설은 반증이 있을 때까지 참이라고 가정합니다.

즉, 귀무가설은 가설검증의 출발점이 되며, 변수 간의 관계나 효과가 없음을 나타냅니다. 귀무가설을 기각하기 위해 연구자는 데이터를 수집하고 귀무가설에 반하는 증거를 제공하는 통계 테스트를 수행해야 합니다.

대체 가설을 뒷받침할 다른 정보나 증거가 없는 경우 귀무 가설은 기본 위치로 유지되며 참으로 간주됩니다. 이는 귀무가설이 관계나 효과의 부재를 나타내고, 반대되는 증거가 없다면 관계나 효과가 존재하지 않는다고 가정하는 것이 타당하기 때문입니다.

귀무가설을 참으로 받아들이는 것은 그것이 확실히 참이라는 것을 의미하는 것이 아니라 단지 그것을 기각할 충분한 증거가 없다는 것을 의미한다는 점에 유의하는 것이 중요합니다. 추가 연구 및 데이터 수집은 대체 가설을 뒷받침하는 증거를 제공하고 귀무 가설을 기각하도록 유도할 수 있습니다.

 

Q10. 표본의 값이 모수에 가깝다면 통계적으로 좋은 의미인가요?

통계에서는 일반적으로 표본 평균이 모집단 평균에 가까우면 좋은 것으로 간주됩니다. 이것은 표본이 모집단을 대표하고 표본 평균이 모집단 평균의 신뢰할 수 있는 추정치를 제공한다는 것을 나타냅니다. 그러나 표본의 변동성과 표본 크기가 신뢰할 수 있는 추정치를 제공할 만큼 충분히 큰지 여부를 고려하는 것도 중요합니다. 변동성이 큰 작은 표본 크기는 모집단 평균을 대표하지 않는 표본 평균을 초래할 수 있습니다.

표본 평균이 모집단 평균에 가깝다고 해서 반드시 표본이 통계적으로 좋다는 보장은 없다는 점을 명심하는 것이 중요합니다. 샘플의 품질을 평가할 때 고려해야 하는 샘플의 가변성, 샘플 크기 및 데이터 분포와 같은 다른 요소가 있습니다.

빅데이터 의료 산업에서는 분석 결과가 정확하고 신뢰할 수 있도록 환자 데이터를 분석할 때 이러한 요소를 신중하게 고려하는 것이 중요합니다

 

 

728x90
반응형
LIST