ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 분석 중간 정리 (1/4)
    공부 이야기/그냥 찾아보는 공부 2020. 11. 14. 23:50

    # 1~48 (주관식 포함)

    # index [ 함수 / 데이터프레임 / 측도와 척도 / 카이제곱

     

    문제 유형별 정리

    # 함수, 데이터프레임

    1. 결측치 (N/A, Not Available) 값 제거

    -> na.omit(데이터프레임명)

     

    # 데이터프레임

    2. 변수를 벡터로 추출하는 법

    - [[index]].[["변수명"]]

    - 데이터프레임명$변수명

    - [index].["변수명"]

    - 데이터프레임[[행번호]]

     

    # 함수, 데이터프레임

    3. apply(데이터프레임명,1/2,통계량)

    - 1 : 행, 2 : 열

    - 통계량 : mean

    - for, while문과 달리 루프문을 사용하지 않고도 간결하게 데이터를 산출할 수 있음

    - lapply (데이터프레임명,통계량)

    -> list + apply로 리스트형으로 출력

    ※ 리스트는 벡터 외에도 매트릭스(matrix), 데이터프레임(data frame) 등 어떠한 형태든 인자 안에 저장할 수 있다.

    - sapply (데이터프레임명,통계량,T/F)

    -> simplify + apply

    - 세 번째 인자값이 T이면 벡터형으로 F이면 리스트형으로 출력 

    - vapply (데이터프레임명,통계량,출력식)

    -> 추가적으로 출력양식을 직접 지정할 수 있음

     

    # 측도의 종류

    1. 위치측도

    - 모집단/표본에 속한 특성값들의 대략적인 크기를 나타냄

    - 표본평균, 중앙값, 분위수, 백분위수

    2. 산포측도

    - 모집단/표본에 속한 특성값들이 얼마나 멀리/가까이 퍼져있는지를 나타냄

    - 표본분산, 표본표준편차, 평균절대편차, 사분위수 범위*

    * 평균으로부터 +25% ~ -25%의 값

    -> 주로 집단 간의 차이를 구할 때 사용

     

    # 척도의 종류

    - 대상 특성의 "단위"로 측정방법에 따라 사용하는 통계기법이 다름

    - 범주형 자료를 사용할 때

      - 명목 척도 : 단순한 카테고리별 분류

      - 순서 척도 : 범위

    - 연속형 자료를 사용할 때

      - 구간척도 : 최빈값

      - 비율척도 : 표준편차

     

    # 함수

    - 그룹별로 sum, mean 등의 요약성 작업에 관련된 R-명령어

    -> data.table, sqldf*, aggregate

    * R에서 쿼리문을 사용할 수 있는 패키지

    - 분포함수 종류

    1. rnorm : 난수발생

    2. qnorm : 백분위수 분포함수

    3. dnorm : 확률값 분포함수

    4. pnorm : 누적분포함수

     

    # 의사결정나무 모형, #측도

    1. 불순도 측도

    - 지니 계수

    -> 불순도를 측정하는 대표적인 지표로, 각 표본에서 원하지 않는 값이 포함되어 있는 수치

    -> CART 알고리즘 사용

    - 엔트로피 계수

    -> 정보획득량을 구하기 위한 지표로 정보량의 기댓값(E, 평균의 제곱)

    -> ID3 알고리즘 사용

     

    # 연관성 측도, 교차분석 통계량

    1. 카이제곱

    - 두 개의 범주형 데이터의 연관성을 나타내는 지표로, 연관성이 높을수록 값이 커짐

    - 독립변수와 종속변수가 모두 명목척도(카테고리별 범주형 데이터 분류)일 경우에 적합

     

    2. 명목 데이터의 연관성 측도

    - 분할 계수 : 카이제곱을 기반으로 0~1로 수치화

    - 파이 및 Cramer의 V : 카이제곱 통계량을 표본 크기로 나눈 후, 그 결과의 제곱근

    - 람다: 독립변수와 종속변수의 값을 예측하는데 사용. 1은 독립변수가 종속변수에 무조건 영향, 0은 아무런 영향 x 

    - 불확실성 계수 : 하나의 변수로 다른 변수를 예측할 때 사용

     

    3. 순서 데이터의 연관성 측도

    - 감마 : 두 개의 순서변수에 대한 -1 ~ 1의 값. 1일수록 관계가 강함

    - somers의 d

    - kendall의 타우-b,c

     

    # k-means 방법

    - 비지도학습

    - k개의 평균을 중심으로 Cluster을 이루는 명령

    - 사용자가 초기값을 미리 결정함

     

    # 함수

    - boxplot(결과열~조건열, 데이터프레임명)

    - 상자그림으로 시각화하기 위한 R 스크립트

    - paste : 두 개의 문자열을 결합

    - strsplit : 문자열을 나누기

    - gsub : 특정 문자 찾아바꾸기

    - rep : 특정 패턴이 문자열에 있는지 찾은 후, 해당 위치 반환

     

     

    # 주관식

    - 연속형 변수 X와 Y가 있고, 제 3의 변수 Z가 각각 연관되어 있을 때 Z에 조건화하여 산출하는 상관계수

    -> 편상관(partial correlation)

    - 여러 대상 간의 관계에 대한 수치적 자료를 이용해서 유사성에 대한 측정치를 상대적 거리로 시각화

    -> 다차원척도법

    - 분류모형의 평가에 사용되는 그래프

    -> ROC 그래프

    - 일련의 개체 또는 사건들 간의 규칙을 발견하기 위해 사용되는 대표적인 정형 데이터 마이닝 기법

    -> 연관성 분석

    - 관측값의 특성이 가까운 군집끼리 순차적으로 합해가는 방법

    -> 응집분석

     

    통계학에 대한 기초 이론과 R 프로그래밍에 대한 지식이 좀 있어야 되는 시험인 것 같다.... ㅠㅠ

Designed by Tistory.