데이터 분석 중간 정리 (1/4)

공부 이야기/그냥 찾아보는 공부 2020. 11. 14. 23:50

# 1~48 (주관식 포함)

# index [ 함수 / 데이터프레임 / 측도와 척도 / 카이제곱

문제 유형별 정리

# 함수, 데이터프레임

1. 결측치 (N/A, Not Available) 값 제거

-> na.omit(데이터프레임명)

# 데이터프레임

2. 변수를 벡터로 추출하는 법

- [[index]].[["변수명"]]

- 데이터프레임명$변수명

- [index].["변수명"]

- 데이터프레임[[행번호]]

# 함수, 데이터프레임

3. apply(데이터프레임명,1/2,통계량)

- 1 : 행, 2 : 열

- 통계량 : mean

- for, while문과 달리 루프문을 사용하지 않고도 간결하게 데이터를 산출할 수 있음

- lapply (데이터프레임명,통계량)

-> list + apply로 리스트형으로 출력

※ 리스트는 벡터 외에도 매트릭스(matrix), 데이터프레임(data frame) 등 어떠한 형태든 인자 안에 저장할 수 있다.

- sapply (데이터프레임명,통계량,T/F)

-> simplify + apply

- 세 번째 인자값이 T이면 벡터형으로 F이면 리스트형으로 출력

- vapply (데이터프레임명,통계량,출력식)

-> 추가적으로 출력양식을 직접 지정할 수 있음

# 측도의 종류

1. 위치측도

- 모집단/표본에 속한 특성값들의 대략적인 크기를 나타냄

- 표본평균, 중앙값, 분위수, 백분위수

2. 산포측도

- 모집단/표본에 속한 특성값들이 얼마나 멀리/가까이 퍼져있는지를 나타냄

- 표본분산, 표본표준편차, 평균절대편차, 사분위수 범위*

* 평균으로부터 +25% ~ -25%의 값

-> 주로 집단 간의 차이를 구할 때 사용

# 척도의 종류

- 대상 특성의 "단위"로 측정방법에 따라 사용하는 통계기법이 다름

- 범주형 자료를 사용할 때

- 명목 척도 : 단순한 카테고리별 분류

- 순서 척도 : 범위

- 연속형 자료를 사용할 때

- 구간척도 : 최빈값

- 비율척도 : 표준편차

# 함수

- 그룹별로 sum, mean 등의 요약성 작업에 관련된 R-명령어

-> data.table, sqldf*, aggregate

* R에서 쿼리문을 사용할 수 있는 패키지

- 분포함수 종류

1. rnorm : 난수발생

2. qnorm : 백분위수 분포함수

3. dnorm : 확률값 분포함수

4. pnorm : 누적분포함수

# 의사결정나무 모형, #측도

1. 불순도 측도

- 지니 계수

-> 불순도를 측정하는 대표적인 지표로, 각 표본에서 원하지 않는 값이 포함되어 있는 수치

-> CART 알고리즘 사용

- 엔트로피 계수

-> 정보획득량을 구하기 위한 지표로 정보량의 기댓값(E, 평균의 제곱)

-> ID3 알고리즘 사용

# 연관성 측도, 교차분석 통계량

1. 카이제곱

- 두 개의 범주형 데이터의 연관성을 나타내는 지표로, 연관성이 높을수록 값이 커짐

- 독립변수와 종속변수가 모두 명목척도(카테고리별 범주형 데이터 분류)일 경우에 적합

2. 명목 데이터의 연관성 측도

- 분할 계수 : 카이제곱을 기반으로 0~1로 수치화

- 파이 및 Cramer의 V : 카이제곱 통계량을 표본 크기로 나눈 후, 그 결과의 제곱근

- 람다: 독립변수와 종속변수의 값을 예측하는데 사용. 1은 독립변수가 종속변수에 무조건 영향, 0은 아무런 영향 x

- 불확실성 계수 : 하나의 변수로 다른 변수를 예측할 때 사용

3. 순서 데이터의 연관성 측도

- 감마 : 두 개의 순서변수에 대한 -1 ~ 1의 값. 1일수록 관계가 강함

- somers의 d

- kendall의 타우-b,c

# k-means 방법

- 비지도학습

- k개의 평균을 중심으로 Cluster을 이루는 명령

- 사용자가 초기값을 미리 결정함

# 함수

- boxplot(결과열~조건열, 데이터프레임명)

- 상자그림으로 시각화하기 위한 R 스크립트

- paste : 두 개의 문자열을 결합

- strsplit : 문자열을 나누기

- gsub : 특정 문자 찾아바꾸기

- rep : 특정 패턴이 문자열에 있는지 찾은 후, 해당 위치 반환

# 주관식

- 연속형 변수 X와 Y가 있고, 제 3의 변수 Z가 각각 연관되어 있을 때 Z에 조건화하여 산출하는 상관계수

-> 편상관(partial correlation)

- 여러 대상 간의 관계에 대한 수치적 자료를 이용해서 유사성에 대한 측정치를 상대적 거리로 시각화

-> 다차원척도법

- 분류모형의 평가에 사용되는 그래프

-> ROC 그래프

- 일련의 개체 또는 사건들 간의 규칙을 발견하기 위해 사용되는 대표적인 정형 데이터 마이닝 기법

-> 연관성 분석

- 관측값의 특성이 가까운 군집끼리 순차적으로 합해가는 방법

-> 응집분석

통계학에 대한 기초 이론과 R 프로그래밍에 대한 지식이 좀 있어야 되는 시험인 것 같다.... ㅠㅠ

저작자표시 (새창열림)

'공부 이야기 > 그냥 찾아보는 공부' 카테고리의 다른 글

데이터 분석 중간 정리 (3/4) (0)	2020.11.16
데이터분석 중간 정리 (2/4) (0)	2020.11.16
ADsP - 데이터 이해 ~ 데이터 분석 기획 (1)	2020.11.08
What's new in Android 11, 부드러운 키보드 팝업을 구현 (0)	2020.11.03
안드로이드 11. 보안) Developing with the latest privacy changes in Android 11 (0)	2020.11.01

ABOUT ME

mind mind

'공부 이야기 > 그냥 찾아보는 공부' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'공부 이야기 > 그냥 찾아보는 공부' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바