1. Toad (토드) |
1.실습자료 공유
https://guromd1.blogspot.com
2. 단축키
ctrl + B = 주석
ctrl + T = 자동완성 기능
shift + home or shift + end = 첫열까지 드래그 또는 후열까지 드래그
3. 용어 설명
EMPNO (사원번호) : 일반적으로 조직 내의 각 직원에게 할당된 고유 식별자인 "직원 번호"의 약어입니다.
ENAME (사원이름) : 일반적으로 직원의 이름인 "직원 이름"의 약어입니다
JOB (직책) : 일반적으로 직원이 조직 내에서 보유하는 역할 또는 위치인 "직함"의 약어입니다.
MGR : 일반적으로 직원의 직속 관리자 또는 감독자를 나타내는 "관리자"의 약어입니다. ID의 성격을 띔
HIGERDATE : 입사일 (최근/나중)
SAL(월급) : 대표적인 연속형 변수
명목척도 : 그룹 이름
정형 데이터 : 구조가 있는 데이터
변수 : 숫자 or 그룹
VARCHAR (가변형) : 문자지만 남은 공간을 유동적으로 변하게 해주는 역할을 함. (변할 수 있는 애)
INDEX : 데이터의 위치를 의미함.
* 범주형 변수와 연관된
순위척도(리커트 척도) : 별점을 매기는 것.
명목척도 : 남자와 여자로 나눠질 수 있는
* 연속형 변수와 연관된
숫자 : 0이 있는
온도 : 절대 0 이 없는
-- 주석 = CTRL + B
DESC EMP;
--SQL 기본 문법
--SELECT ~ FROM ~
--SELECT 열 이름(=컬럼 = 변수 = 필드) FROM 테이블 이름(데이터)
SELECT * FROM EMP;
--문자(숫자로 코딩되어 있으나 숫자 의미가 없음) = 범주형 변수 = 빈도(비율)
--숫자 = 연속형 변수 = 평균
SELECT ENAME, JOB FROM EMP;
-- 사원 정보
DESC EMP;
-- 부서 정보
DESC DEPT;
--SELECT (열이름) FROM (테이블 이름) // 데이터
SELECT * FROM EMP;
SELECT ENAME, JOB FROM EMP;
-- 사원 정보
DESC EMP;
-- 부서 정보
DESC DEPT;
SELECT * FROM DEPT;
--급여 등급 정보
DESC SALGRADE;
SELECT * FROM SALGRADE;
* 연속형 변수(숫자) : 평균으로 연결시킨다. (예시 - 평균 월급 ?)
* 범주형 변수(문자) : 빈도(비율)로 연결시킨다. 그룹의 형태를 띈다. (예시 - 남성 ?명, 여성 ?명)
->범주형 변수는 비율척도나 등간척도 사용
연속형 변수 예외) 숫자로 코딩 되어 있으나 숫자 의미가 없음. (예시 - 남자 = 1, 여자 = 2)
4. 규칙을 정하기
- 변수이름 만들 때 숫자로 시작하면 안 됨.
- 프로그래밍 언어 : 소문자로 작성
- 커리(DB) : 대문자로 작성
- 찾기 쉽게 주석 잘 달기
2. R (통계 프로그램) |
1. 통계 프로그램의 종류
SPSS (GUI 방식 / 유료) : 사회과학 분야에서 쓰임.
SAS (코딩 / 유료) : 의학 통계 프로그램
STATA (GUI / 유료) : Statistics + Data
R : 코딩 방식
* GUI : 클릭해서 실행하는 (코딩과는 다른)
* 생존분석 : 약을 먹은 그룹과 먹지 않은 그룹의 상태를 확인하는 것.
2. R 이해하기
1) R이란?
- 데이터 분석 소프트웨어
- 다양한 분야의 데이터 분석가들이 사용
- 큰 인기를 끌고 있으며, 점유율도 계속 높아지고 있음.
2) R을 어디에 쓰나요?
- 다양성
- 범용 분석 도구
- 다양하게 어디든 사용 가능함.
2-1) R을 어디에 쓰나요? -> 통계 분석
- 기초 통계 분석부터 가설 검정에 사용되는 고급 통계 분석 기법
- 상관계수 r
-> -1 < r < 1
-> 양의 상관관계 : 같은 방향으로 증가하거나 감소
0 < r < 1
-> 음의 상관관계 : 반대 방향
-1 < r < 0
- 변수가 여러 개 있을 때 여러 개의 상관계수가 계산됨
- 이를 효과적으로 표현하기 위해 correlation matrix 사용
2-2 ) 상관행렬의 변수 공식 (피어슨의 상관관계수) // 위는 변수 7개를 표현한 것.
- 변수개수 = k
- k * k -1 / 2
- 방향과 강도(크기)를 알 수 있음
3. 전 세계 데이터 분석가들이 사용하는 R
- 많은 사람들이 이용하는 것이 큰 이점
- 코딩하다가 문제가 생기면 도움을 구하기 쉬움
- 구글 검색하면 온라인 커뮤니티 등 해결 방법 쉽게 찾을 수 있음.
4. R 이해하기 1
1) 연구자들이 사용하는 R
- 구글 스칼라에 등록된 학술 논문에서 어떤 데이터 분석 도구를 사용했는지
- 유료 프로그램인 spss, sas 는 점점 줄어들고 있고, 무료 프로그램인 r은 지속적으로 증가하고 있음
- 석박사 학생들이 r을 사용해 연구를 진행하기 때문에 졸업하고 기업에 들어가면 r로 데이터 분석 업무를 하게 됨
- r을 이용한 연구가 늘어나면서 기업도 이런 흐름에 따라가고 있음
5. R이 강력한 이유
- 데이터 분석 도구, 프로그래밍 언어
- 뉴질랜드 통계학 교수, Robert Gentleman & Ross Ihaka 개발
- 1990년 초반 개발
- 2000년 정식 version 1.0 발표
- 무료로 사용할 수 있는 오픈 소스
- 뛰어난 데이터 시각화 도구 (ggplot2 등)
- 효율적 데이터 전처리(data wrangling) 도구 (tidyr, dplyr 등)
- CRAN 서버에서 설치 가능
- R 스튜디오를 자주 씀
2. R (통계 프로그램) Studio |
1. R Studio 설치하기
- 사이트가서 설치
2. Tools 설정
1) Code - editing: Soft-wrap R source files 체크
2) Code - Saving: encoding 설정 -> UTF-8
3) Appearance : 화면설정
2. R Studio 단축키
- shift + ctrl + c : 주석
- sql에서는 ctrl + b 가 주석
- 실행 방법 ctrl + enter
3. R Studio 용어 설명
# combine 함수 (조건부 함수 x) : 여러 개의 값을 저장 (범용성 넓은 함수)
# sequence 함수 (조건부 함수 o) : 연속적인 값만 만들 수 있다. (규칙을 적용할 수 있는 함수)
# 빈도를 많이 씀. (문자의 개수 빈도를 구하는)
# 주석 = shift + ctrl + c
# 할당 연산자 = alt + -
# 명령어 실행 = ctrl + enter
a = 4
a <- 1
b <- 2
c <- 3
d <- 4
# 사칙연산
a+b
c-d
b*d
d/b
2*(a*b)
# 연산자를 넣으지 않으면 인식하지 못한다.
# combine 함수 : 여러 개의 값을 저장 (범용성 넓은 함수)
v1 <- c(1,2,3,4,5)
v2 <- c(1:5)
v2 <- c(1:5, 2)
v2
# sequence 함수 : 연속적인 값만 만들 수 있다. 또는 특정 규칙에 따라 연속적인 값을 저장
v3 <- seq(1,5)
v3
v4 <- seq(1,10,by=2)
# by는 간격을 의미 함. (by는 매개변수라 생략이 가능)
v4
# 문자
str1 <- "k"
str2 <- "text"
str3 <- c("a","b","c")
str4 <- c("hello!","world","is","good!")
paste(str4,collapse ="_")
# 숫자 데이터 = 연속형 변수 = 평균
mean(v1)
# 문자 데이터 = 범주형 변수 = 비율
table(str3)
# 대괄호 : []
# 중괄호 : {}
# 소괄호 : ()
# 알파벳 추출
LETTERS[1:5]
1,5,7,9,2와 같은 배열은 벡터라고 할 수 있음
'수업내용 정리' 카테고리의 다른 글
0202 수업 내용 정리 (0) | 2023.02.02 |
---|---|
0201 수업 내용 정리 - 오라클 목차 01 (0) | 2023.02.01 |
0131 수업 내용 정리 (0) | 2023.01.31 |
0130 수업 내용 정리 (1) | 2023.01.30 |
2023-01-27 배운 것과 관련해서 설명 및 질문 (0) | 2023.01.27 |