-
데이터 분석 중간 정리 (1/4)공부 이야기/그냥 찾아보는 공부 2020. 11. 14. 23:50
# 1~48 (주관식 포함)
# index [ 함수 / 데이터프레임 / 측도와 척도 / 카이제곱
문제 유형별 정리
# 함수, 데이터프레임
1. 결측치 (N/A, Not Available) 값 제거
-> na.omit(데이터프레임명)
# 데이터프레임
2. 변수를 벡터로 추출하는 법
- [[index]].[["변수명"]]
- 데이터프레임명$변수명
- [index].["변수명"]
- 데이터프레임[[행번호]]
# 함수, 데이터프레임
3. apply(데이터프레임명,1/2,통계량)
- 1 : 행, 2 : 열
- 통계량 : mean
- for, while문과 달리 루프문을 사용하지 않고도 간결하게 데이터를 산출할 수 있음
- lapply (데이터프레임명,통계량)
-> list + apply로 리스트형으로 출력
※ 리스트는 벡터 외에도 매트릭스(matrix), 데이터프레임(data frame) 등 어떠한 형태든 인자 안에 저장할 수 있다.
- sapply (데이터프레임명,통계량,T/F)
-> simplify + apply
- 세 번째 인자값이 T이면 벡터형으로 F이면 리스트형으로 출력
- vapply (데이터프레임명,통계량,출력식)
-> 추가적으로 출력양식을 직접 지정할 수 있음
# 측도의 종류
1. 위치측도
- 모집단/표본에 속한 특성값들의 대략적인 크기를 나타냄
- 표본평균, 중앙값, 분위수, 백분위수
2. 산포측도
- 모집단/표본에 속한 특성값들이 얼마나 멀리/가까이 퍼져있는지를 나타냄
- 표본분산, 표본표준편차, 평균절대편차, 사분위수 범위*
* 평균으로부터 +25% ~ -25%의 값
-> 주로 집단 간의 차이를 구할 때 사용
# 척도의 종류
- 대상 특성의 "단위"로 측정방법에 따라 사용하는 통계기법이 다름
- 범주형 자료를 사용할 때
- 명목 척도 : 단순한 카테고리별 분류
- 순서 척도 : 범위
- 연속형 자료를 사용할 때
- 구간척도 : 최빈값
- 비율척도 : 표준편차
# 함수
- 그룹별로 sum, mean 등의 요약성 작업에 관련된 R-명령어
-> data.table, sqldf*, aggregate
* R에서 쿼리문을 사용할 수 있는 패키지
- 분포함수 종류
1. rnorm : 난수발생
2. qnorm : 백분위수 분포함수
3. dnorm : 확률값 분포함수
4. pnorm : 누적분포함수
# 의사결정나무 모형, #측도
1. 불순도 측도
- 지니 계수
-> 불순도를 측정하는 대표적인 지표로, 각 표본에서 원하지 않는 값이 포함되어 있는 수치
-> CART 알고리즘 사용
- 엔트로피 계수
-> 정보획득량을 구하기 위한 지표로 정보량의 기댓값(E, 평균의 제곱)
-> ID3 알고리즘 사용
# 연관성 측도, 교차분석 통계량
1. 카이제곱
- 두 개의 범주형 데이터의 연관성을 나타내는 지표로, 연관성이 높을수록 값이 커짐
- 독립변수와 종속변수가 모두 명목척도(카테고리별 범주형 데이터 분류)일 경우에 적합
2. 명목 데이터의 연관성 측도
- 분할 계수 : 카이제곱을 기반으로 0~1로 수치화
- 파이 및 Cramer의 V : 카이제곱 통계량을 표본 크기로 나눈 후, 그 결과의 제곱근
- 람다: 독립변수와 종속변수의 값을 예측하는데 사용. 1은 독립변수가 종속변수에 무조건 영향, 0은 아무런 영향 x
- 불확실성 계수 : 하나의 변수로 다른 변수를 예측할 때 사용
3. 순서 데이터의 연관성 측도
- 감마 : 두 개의 순서변수에 대한 -1 ~ 1의 값. 1일수록 관계가 강함
- somers의 d
- kendall의 타우-b,c
# k-means 방법
- 비지도학습
- k개의 평균을 중심으로 Cluster을 이루는 명령
- 사용자가 초기값을 미리 결정함
# 함수
- boxplot(결과열~조건열, 데이터프레임명)
- 상자그림으로 시각화하기 위한 R 스크립트
- paste : 두 개의 문자열을 결합
- strsplit : 문자열을 나누기
- gsub : 특정 문자 찾아바꾸기
- rep : 특정 패턴이 문자열에 있는지 찾은 후, 해당 위치 반환
# 주관식
- 연속형 변수 X와 Y가 있고, 제 3의 변수 Z가 각각 연관되어 있을 때 Z에 조건화하여 산출하는 상관계수
-> 편상관(partial correlation)
- 여러 대상 간의 관계에 대한 수치적 자료를 이용해서 유사성에 대한 측정치를 상대적 거리로 시각화
-> 다차원척도법
- 분류모형의 평가에 사용되는 그래프
-> ROC 그래프
- 일련의 개체 또는 사건들 간의 규칙을 발견하기 위해 사용되는 대표적인 정형 데이터 마이닝 기법
-> 연관성 분석
- 관측값의 특성이 가까운 군집끼리 순차적으로 합해가는 방법
-> 응집분석
통계학에 대한 기초 이론과 R 프로그래밍에 대한 지식이 좀 있어야 되는 시험인 것 같다.... ㅠㅠ
'공부 이야기 > 그냥 찾아보는 공부' 카테고리의 다른 글
데이터 분석 중간 정리 (3/4) (0) 2020.11.16 데이터분석 중간 정리 (2/4) (0) 2020.11.16 ADsP - 데이터 이해 ~ 데이터 분석 기획 (1) 2020.11.08 What's new in Android 11, 부드러운 키보드 팝업을 구현 (0) 2020.11.03 안드로이드 11. 보안) Developing with the latest privacy changes in Android 11 (0) 2020.11.01