본문 바로가기

수업내용 정리

2023 01 27 수업 내용 정리

1. Toad (토드)

 

1.실습자료 공유
https://guromd1.blogspot.com

2. 단축키
ctrl + B = 주석

ctrl + T = 자동완성 기능
shift + home or shift + end = 첫열까지 드래그 또는 후열까지 드래그

 

3. 용어 설명 

EMPNO (사원번호) : 일반적으로 조직 내의 각 직원에게 할당된 고유 식별자인 "직원 번호"의 약어입니다.

ENAME (사원이름) : 일반적으로 직원의 이름인 "직원 이름"의 약어입니다

JOB (직책) : 일반적으로 직원이 조직 내에서 보유하는 역할 또는 위치인 "직함"의 약어입니다.

MGR : 일반적으로 직원의 직속 관리자 또는 감독자를 나타내는 "관리자"의 약어입니다. ID의 성격을 띔

HIGERDATE : 입사일 (최근/나중)

SAL(월급) : 대표적인 연속형 변수

명목척도 : 그룹 이름

정형 데이터 : 구조가 있는 데이터 
변수 : 숫자 or 그룹

VARCHAR (가변형) : 문자지만 남은 공간을 유동적으로 변하게 해주는 역할을 함. (변할 수 있는 애)

INDEX : 데이터의 위치를 의미함.

 

* 범주형 변수와 연관된

순위척도(리커트 척도) : 별점을 매기는 것.

명목척도 : 남자와 여자로 나눠질 수 있는

 

* 연속형 변수와 연관된

숫자 : 0이 있는

온도 : 절대 0 이 없는

 

-- 주석 = CTRL + B
DESC EMP;

--SQL 기본 문법
--SELECT ~ FROM ~
--SELECT 열 이름(=컬럼 = 변수 = 필드) FROM 테이블 이름(데이터)

SELECT * FROM EMP;

--문자(숫자로 코딩되어 있으나 숫자 의미가 없음) = 범주형 변수 = 빈도(비율)
--숫자 = 연속형 변수 = 평균
SELECT ENAME, JOB FROM EMP;

-- 사원 정보
DESC EMP;

-- 부서 정보
DESC DEPT;

--SELECT (열이름) FROM (테이블 이름) // 데이터
SELECT * FROM EMP;
SELECT ENAME, JOB FROM EMP;
-- 사원 정보
DESC EMP;
-- 부서 정보
DESC DEPT;
SELECT * FROM DEPT;
--급여 등급 정보
DESC SALGRADE;
SELECT * FROM SALGRADE;

* 연속형 변수(숫자) : 평균으로 연결시킨다.  (예시 - 평균 월급 ?)

* 범주형 변수(문자) : 빈도(비율)로 연결시킨다. 그룹의 형태를 띈다. (예시 - 남성 ?명, 여성 ?명)

->범주형 변수는 비율척도나 등간척도 사용

연속형 변수 예외) 숫자로 코딩 되어 있으나 숫자 의미가 없음. (예시 - 남자 = 1, 여자 = 2)

 

4. 규칙을 정하기

- 변수이름 만들 때 숫자로 시작하면 안 됨.

- 프로그래밍 언어 : 소문자로 작성

- 커리(DB) : 대문자로 작성

- 찾기 쉽게 주석 잘 달기

2. R (통계 프로그램)

1. 통계 프로그램의 종류

SPSS (GUI 방식 / 유료) : 사회과학 분야에서 쓰임.

SAS (코딩 / 유료) : 의학 통계 프로그램 

STATA (GUI / 유료) :  Statistics + Data 

R : 코딩 방식

 

* GUI : 클릭해서 실행하는 (코딩과는 다른)

* 생존분석 : 약을 먹은 그룹과 먹지 않은 그룹의 상태를 확인하는 것.

 

2. R 이해하기

1) R이란?

- 데이터 분석 소프트웨어

- 다양한 분야의 데이터 분석가들이 사용

- 큰 인기를 끌고 있으며, 점유율도 계속 높아지고 있음.

 

2) R을 어디에 쓰나요?

- 다양성

- 범용 분석 도구

- 다양하게 어디든 사용 가능함.

 

2-1) R을 어디에 쓰나요? -> 통계 분석

- 기초 통계 분석부터 가설 검정에 사용되는 고급 통계 분석 기법

- 상관계수 r

-> -1 < r < 1

-> 양의 상관관계 : 같은 방향으로 증가하거나 감소

   0 < r < 1

-> 음의 상관관계 : 반대 방향

  -1 < r < 0

- 변수가 여러 개 있을 때 여러 개의 상관계수가 계산됨

- 이를 효과적으로 표현하기 위해 correlation matrix 사용

 

2-2 ) 상관행렬의 변수 공식 (피어슨의 상관관계수) // 위는 변수 7개를 표현한 것.

- 변수개수 = k 

- k * k -1 / 2

- 방향과 강도(크기)를 알 수 있음

 

3. 전 세계 데이터 분석가들이 사용하는 R

- 많은 사람들이 이용하는 것이 큰 이점

- 코딩하다가 문제가 생기면 도움을 구하기 쉬움

 - 구글 검색하면 온라인 커뮤니티 등 해결 방법 쉽게 찾을 수 있음.

 

4. R 이해하기 1

1) 연구자들이 사용하는 R

- 구글 스칼라에 등록된 학술 논문에서 어떤 데이터 분석 도구를 사용했는지

- 유료 프로그램인 spss, sas 는 점점 줄어들고 있고, 무료 프로그램인 r은 지속적으로 증가하고 있음

- 석박사 학생들이 r을 사용해 연구를 진행하기 때문에 졸업하고 기업에 들어가면 r로 데이터 분석 업무를 하게 됨

- r을 이용한 연구가 늘어나면서 기업도 이런 흐름에 따라가고 있음

 

5. R이 강력한 이유

- 데이터 분석 도구, 프로그래밍 언어

- 뉴질랜드 통계학 교수, Robert Gentleman & Ross Ihaka 개발

- 1990년 초반 개발

- 2000년 정식 version 1.0 발표

- 무료로 사용할 수 있는 오픈 소스

- 뛰어난 데이터 시각화 도구 (ggplot2 등)

- 효율적 데이터 전처리(data wrangling) 도구 (tidyr, dplyr 등)

- CRAN 서버에서 설치 가능

- R 스튜디오를 자주 씀

 

2. R (통계 프로그램) Studio

1. R Studio 설치하기

- 사이트가서 설치

2. Tools 설정

1) Code - editing: Soft-wrap R source files 체크

2) Code - Saving: encoding 설정 -> UTF-8

3) Appearance : 화면설정

 

2. R Studio 단축키

- shift + ctrl + c : 주석

- sql에서는 ctrl + b 가 주석

- 실행 방법 ctrl + enter

 

3. R Studio 용어 설명

# combine 함수 (조건부 함수 x) : 여러 개의 값을 저장 (범용성 넓은 함수) 

# sequence 함수 (조건부 함수 o) : 연속적인 값만 만들 수 있다. (규칙을 적용할 수 있는 함수)

# 빈도를 많이 씀. (문자의 개수 빈도를 구하는)

# 주석 = shift + ctrl + c
# 할당 연산자 = alt + -
# 명령어 실행 = ctrl + enter
a = 4
a <- 1
b <- 2
c <- 3
d <- 4

# 사칙연산
a+b
c-d
b*d
d/b

2*(a*b)
# 연산자를 넣으지 않으면 인식하지 못한다.
# combine 함수 : 여러 개의 값을 저장 (범용성 넓은 함수)
v1 <- c(1,2,3,4,5)
v2 <- c(1:5)
v2 <- c(1:5, 2)
v2
# sequence 함수 : 연속적인 값만 만들 수 있다. 또는 특정 규칙에 따라 연속적인 값을 저장
v3 <- seq(1,5)
v3
v4 <- seq(1,10,by=2)
# by는 간격을 의미 함. (by는 매개변수라 생략이 가능)
v4
# 문자
str1 <- "k"
str2 <- "text"
str3 <- c("a","b","c")
str4 <- c("hello!","world","is","good!")
paste(str4,collapse ="_")

# 숫자 데이터 = 연속형 변수 = 평균
mean(v1)
# 문자 데이터 = 범주형 변수 = 비율
table(str3)
# 대괄호 : []
# 중괄호 : {}
# 소괄호 : ()
# 알파벳 추출
LETTERS[1:5]

1,5,7,9,2와 같은 배열은 벡터라고 할 수 있음

728x90
반응형
LIST