본문 바로가기

개인공부 정리/다양한 질문들

(35)
0304 sqld 특강 질문 1. 데이터 모델링에서 SCSI가 뭐야 SCSI(Small Computer System Interface)는 컴퓨터와 하드 디스크 드라이브, 테이프 드라이브 및 CD/DVD 드라이브와 같은 주변 장치 간에 데이터를 물리적으로 연결하고 전송하기 위한 일련의 표준입니다. 데이터 모델링에서 SCSI는 일반적으로 저장 장치와 이에 액세스하는 시스템 간의 물리적 연결 및 데이터 전송 프로토콜을 모델링하는 방법으로 사용됩니다. SCSI 모델은 SAN(Storage Area Network)을 설계 및 최적화하고 데이터 백업 및 복구 전략을 계획하는 데 사용할 수 있습니다. 2. 클러스터링에 대해 알려줄래? 클러스터링은 데이터 분석에서 유사한 데이터 요소나 개체를 함께 그룹화하는 데 사용되는 기술입니다. 클러스터링의 ..
0228 만만한 통계 R 외부 챕터 8~9 질문 - 그래프 만들기, 데이터 분석 프로젝트 Q1.해당 코드에서 xlim과 ylim 값을 설정할 때 0이 들어가는 이유에 대해 설명해주세요. : midwest 변수. 이 코드에서 income은 종속 변수이고 sex는 독립 변수입니다. 두 번째 코드 t.test.formula(welfare $sex ~welfare$income, var.equal = T)는 또한 income 변수와 sex 변수를 기반으로 두 그룹의 평균을 비교합니다. 그러나 이 코드에서 sex는 종속 변수이고 income은 독립 변수입니다. 따라서 두 코드는 서로 다른 가설을 테스트하고 있습니다. 첫 번째 코드는 남녀 간 평균 소득 차이가 있는지 테스트하고 두 번째 코드는 소득 수준 간 평균 성별 차이가 있는지 테스트합니다. * 이해 : 구하고자 하는 값은 성별과 월급의 관계 분석인..
0227 만만한 통계 R 외부 챕터 6~8 질문 - 데이터 추출, 데이터 합치기, 데이터 정제, 그래프 Q1. 통합 연비를 구하기 위해 여기서 나누기 2를 해주는 이유가 뭐야? mutate(total = (hwy + cty)/2) %>% : mpg %>% filter(class == "suv") %>% mutate(total = (hwy + cty)/2) %>% group_by(manufacturer) %>% summarise(mean_total = mean(total)) %>% head(5) 우리가 통합 연비를 계산하는 이유는 서로 다른 차량의 연비를 비교하기 위해서입니다. 도심 연비와 고속도로 연비는 따로 측정하는데 자동차의 총 연비를 알고자 합니다. 따라서 도시와 고속도로의 연비를 합산하고 2로 나누어 평균을 구합니다. 이것은 우리에게 자동차의 전체 연비를 나타내는 단일 숫자를 제공합니다. 2로 나누..
0224 만만한 통계 R 외부 챕터 4~6 질문 - 데이터 프레임, 데이터 분석, 데이터 가공 Q1. 어떤 뜻인지 쉽게 설명해줄 수 있어? mpg %>% group_by(manufacturer,drv) %>% mutate(hwy_mean = mean(hwy)) 이 코드는 먼저 이 두 변수를 기반으로 데이터의 하위 집합을 만드는 함수를 사용하여 데이터 mpg를 그룹화합니다. 그런 다음 함수 를 사용하여 이러한 각 하위 집합에 대한 변수 의 평균을 계산 하고 결과 값을 이라는 새 열에 할당합니다 . 연산자 는 코드를 더 쉽게 읽고 이해할 수 있도록 파이프라인에서 이러한 작업을 함께 연결하는 데 사용됩니다.
0223 만만한 통계 R 외부 챕터 15 질문 - 내장 함수, 변수 타입과 데이터 구조 // 기초 문제 연습 Q1. as.data.frame(ggplot2::mpg)와 data.frame(ggplot2::mpg) 의 차이가 뭐야? as.data.frame(ggplot2:mpg)와 의 차이점은 data.frame(ggplot2:mpg)데이터를 데이터 프레임으로 변환하는 방식에 있습니다. as.data.frame(ggplot2:mpg)mpg함수를 사용하여 패키지 의 데이터를 ggplot2데이터 프레임으로 변환합니다 as.data.frame(). 이 함수는 원본 데이터의 구조를 유지하고 데이터 프레임으로 변환하려고 시도합니다. data.frame(ggplot2:mpg)또한 mpg데이터를 데이터 프레임으로 변환하지만 함수를 사용하여 처음부터 새 데이터 프레임을 만듭니다. data.frame(). 이 함수는 벡터나 리스..
0222 만만한 통계 R 질문 - 카이제곱 검정과 기타 비모수 검정 (CP19) Q1. 비모수 통계와 모수 통계에 대해서 각각 설명하고 차이점을 알려줄래? 모수통계란 데이터가 정규분포를 이루고 평균, 표준편차 등의 매개변수를 알고 있다고 가정하는 통계의 일종이다. 이러한 통계를 사용하려면 인구 분포의 모양을 알고 해당 정보를 사용하여 인구에 대해 추론해야 합니다. 파라메트릭 통계의 예로는 t-테스트, ANOVA 및 선형 회귀가 있습니다. 반면 비모수 통계는 모집단 분포나 모수에 대한 가정이 필요하지 않습니다. 이러한 통계는 데이터가 정규 분포를 따르지 않거나 샘플 크기가 작을 때 사용됩니다. 비모수 통계는 추론을 위해 실제 값이 아닌 데이터 순위를 사용하는 데 중점을 둡니다. 비모수 통계의 예로는 Wilcoxon 부호 순위 테스트, Kruskal-Wallis 테스트 및 Mann-Wh..
0221 만만한 통계 R 질문 - 선형회귀, 단순회귀, 다중회귀 (18) Q1. 단순회귀분석과 다중회귀분석이 r studio에서 어떻게 구현되고 이들의 특징과 차이점이 빅데이터 의료산업에서 어떤 사례로 제시 되는지 알려줘 RStudio에서는 이 lm()함수를 사용하여 단순 선형 회귀를 수행할 수 있습니다. 예를 들어 두 개의 변수가 있는 데이터 세트가 x있고 에서 예측 하기 y위해 선형 회귀 모델을 맞추려고 한다고 가정해 보겠습니다 . 코드는 다음과 같습니다.yx model
0220 만만한 통계 R 질문 - 상관계수 계산 및 유의성 검정, 보건의료(7,17) Q1.상관계수가 0.4라면 큰 수치인가요? 상관 계수의 크기는 맥락과 연구 분야에 따라 다릅니다. 그러나 0.4의 상관 계수는 두 변수 사이에 적당한 양의 관계가 있음을 나타냅니다. 일반적으로 상관계수가 -0.3~0.3이면 약한 관계, -0.7~-0.3 또는 0.3~0.7이면 중간 정도, -0.7보다 작거나 0.7보다 크면 강한 상관관계를 나타낸다. Q2. 상관 계수를 처음 배울 때 좋은 질문이 무엇인지 말씀해 주시겠습니까? 상관 계수는 무엇이며 무엇을 측정합니까? 상관 계수는 어떻게 계산됩니까? 상관 계수에 대해 가능한 값의 범위는 무엇입니까? 상관 계수의 크기와 방향을 어떻게 해석합니까? 양의 상관 관계와 음의 상관 관계의 차이점은 무엇입니까? 변수 간의 관계를 식별하기 위해 상관 계수를 어떻게 사용..
CP 3 ~ CP 5 문제 풀이 질문 Q1. 포함 범위에 1을 추가한 이유를 모르겠습니다. 포함 범위에는 최소값과 최대값이 모두 포함되므로 두 값의 차이를 고려하여 1을 더해야 합니다. 예를 들어 최소값이 3이고 최대값이 12.1이면 그 차이는 9.1입니다. 그러나 3과 12.1이 모두 범위에 포함되므로 포함 범위를 얻으려면 1을 더해야 합니다. 즉, 9.1 + 1 = 10.1입니다. 반면 배타적 범위는 최소값과 최대값 사이의 값만 포함하므로 계산을 위해 1을 더할 필요가 없습니다.
0217 만만한 통계 R 질문 - 평균 차이 검정, 분산분석(ANOVA)(14,15) Q1. ANOVA 분석에서 검정통계량을 계산할 때 특징을 알려줄래? 그리고 다른 식들과 어떤 연관 있는지도 알려줘 (분산식과 같은) ANOVA(분산 분석)는 세 개 이상의 데이터 그룹의 평균을 비교하는 데 사용되는 통계적 방법입니다. ANOVA 테스트는 그룹 평균이 서로 유의하게 다른지 여부를 평가하기 위해 F-통계량을 사용합니다. F-통계량은 그룹 간 변동성을 그룹 내 변동성으로 나누어 계산합니다. ANOVA에서 검정 통계량은 그룹 간 변동성과 그룹 내 변동성의 비율을 기반으로 합니다. ANOVA 분석에서 검정 통계량 계산의 특징은 다음과 같습니다. 검정 통계량은 그룹 간 분산과 그룹 내 분산의 두 가지 분산 비율을 기반으로 합니다. 검정은 그룹 간 평균의 차이가 다음과 같은지 확인하기 위해 고안되었습..

728x90
반응형