ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터분석 중간 정리 (2/4)
    공부 이야기/그냥 찾아보는 공부 2020. 11. 16. 14:33

     

    # 분포의 종류, 검정통계량

    반복적으로 관측되는 결과를 집합적으로 살펴보면 특정적으로 분포의 경향을 이루는 것을 확인할 수 있고

    도출된 분포를 검정통계량에 활용할 수 있다.

    즉, 검정통계량은 표본데이터에서 계산되는 값이고 특히 가설 검정 및 p-value 산출에 사용한다.

    dermabae.tistory.com/145

     

    분포와 검정통계량

    어떤 집단에서 개개의 관측값들을 측정하거나 혹은 동일한 현상에 대해 반복적으로 관측된 결과들을 집합적으로 살펴보면 특징적인 분포를 이루는 경향이 있다. 그러므로 우리가 연구를 통해

    dermabae.tistory.com

    - 종 모양을 띄는 대칭형태의 분포를 정규분포라고 한다.

    - 이때 표준편차 값이 1인 정규분포는 표준정규분포라고 하고 평균 값을 통해 크기를 검정할 때 Z-검정을 사용한다.

    - 표본 값이 충분하지 못할 때 혹은 모분산이 부족한 경우에는 T-분포를 사용하여 근사적으로 값을 계산하는데 이 때의 그래프는 좀 더 뾰족한 종 모양을 가진다.

    -> 자유도가 표본(N)-2 값을 가짐

    - N개의 표본들을 추출하고 각각의 측정치에 대한 값을 산출할 때 카이제곱분포를 사용한다.

    - 두 집단의 평균이 같은지를 검정하기 위해 먼저 분산이 같은지를 검정해야 하는데, 이 때에는 F-분포를 사용한다.

    -> F-분포는 두 개의 모집단의 분산 추정치의 비율로 정의되고 분산분석(ANOVA)와 선형회귀분석의 적합성을 판단할 때 자주 사용된다.

     

    # 시계열 데이터

    1) 정상성

    - 모든 시점 간에 자료는 의존이다. -> 현 시점의 자료가 과거 시점의 자료에 의존하는 시계열 데이터의 공통적인 특징

    - 시점 t와 s의 공분산(covariance)은 시차(t-s)에만 의존하고 실제 어느 시점인지에는 의존하지 않는다.

    - 모든 시점에 대해 일정한 평균을 가진다.

    - 모든 시점에 대해 일정한 분산을 가진다.

    -> 따라서 평평한 모양의 그래프를 가지게 되고, 계절 요인이나 주기성이 보이지 않는다.

    2) 계절 요인

    - 고정된 주기에 따라 자료가 변화되는 요인

    - ex) 일 년, 월별, 사분기 등

    3) 자료 표현 모형

    - 과거 시점의 관측 자료 => 자기회귀모형(AR)

    - 과거 시점의 백색잡음 => 이동평균모형(MA)

    - 과거 시점의 관측 자료와 백색잡음의 선형결합 => 자기회귀이동평균모형(ARMA)

    m.blog.naver.com/bluefish850/220749045909

     

    시계열 분석(Time Series Analysis)-모형

    필자가 이전에 개괄에서 언급한 시계열의 한계에 대해서 이해했다면, 이제 간단히 시계열 정보를 접근하는 ...

    blog.naver.com

    -> ARIMA

    ARMA 모형에서 더 나아가 추세를 판단할 수 있는 모형으로 correlation 뿐만이 아닌 cointegration도 변수에 포함

     

    # 주성분 분석

    주성분 분석은 표본 간 연관성이 있는 고차원의 데이터를 표본 간 연관성이 없는 저차원의 데이터로 환원하는 기법

    데이터의 차원을 축소하는 동시에 범주형 변수를 수량화하는 데 사용

    - 각 표본 데이터의 직교성을 제거하기 위해 직교변환을 사용하는데 분산이 가장 커지는 축을 첫번째 주성분으로 둔다.

    (분산이 클수록 다른 데이터에 대한 연관성이 커지므로?ㅋ)

    - 두번째 주성분을 계산할 때부터는 선형변환을 사용한다.

    - 당연히 고유벡터, 고유값을 기본적으로 활용

     

    1) 주성분 수 선택 시 고려사항

    - 전체 변이의 공헌도

    - 평균 고유값

    - 스크리 그래프

     

    # 결측치 및 이상치

    - 이상치를 제거하는 것은 모델 구축 및 요건 정의 단계에서 하는 것이 아닌 실제 운영시 실무진들이 판단 후 진행한다.

     

    # 수치

    1) p-value

    - probablity value의 줄임말로 귀무가설의 정당성을 판단하는데 사용.

    - 귀무가설이 사실일 때 특정 결과가 나올 확률로 값이 작을수록 귀무가설이 정당함

    2) DF

    - 자유도, 표본에서 2를 뺀 값

    3) R-squared

    - Multiple과 Adjusted로 나뉘며 각 모델이 대상 변수의 몇 %를 설명하는지 나타냄

    4) F-statistics

    - 표본의 평균 혹은 분산 값

     

    # 데이터 분할

    1) 구축용, 검정용, 시험용으로 분리

    2) 구축용 데이터는 초기의 데이터마이닝 모델을 만드는 데 사용

    3) 검정용 데이터는 구축된 모델의 과잉 또는 과소맞춤 등의 미세조정 절차에 사용

    - 교차확인은 구축용과 시험용을 번갈아가며 모형을 평가하는 방법

    # 분류 vs 예측

    - 예측은 설명변수들과 종속변수의 예측치에 대해 순차적인 관계에 대한 고려가 필요

     

    # 데이터간 거리

    1) 유클리드 거리

    - 단순 산술 거리

    2) 표준화 거리

    - 관측 단위의 영향을 제거한 유클리드 거리

    3) 맨하탄 거리

    - 바둑판 같은 맨하탄 도시에서 본 따온 것으로 연속형이지 않은 이산적인 거리를 측정할 때 사용

    - 데이터에 이상치를 제거할 수 없을 때 사용하는 '로버스트'한 측도

    4) 마할라노비스 거리

    - 각 변수들 간의 상관관계가 존재할 경우 사용하는 거리

     

    # 모델 성능 평가 지표

    -> 크게 정확도, 재현율(민감도), 정밀도 세 가지가 있다.

    실제값과 예측값, True와 False를 이용해서 총 4가지의 상황을 만들어낼 수 있다.

    1) 실제값과 예측값이 모두 True인 경우

    2) 실제값과 예측값이 모두 False인 경우

    3) 실제는 False인데 예측을 True로 한 경우

    4) 실제는 True인데 예측을 False로 한 경우

    흥미로운 것은 재현율(Recall)이다.

    캐시 히트 알고리즘과 유사하게 긍정 케이스 중에서 진짜 긍정으로 나온 케이스에 대한 확률이기 때문이다.

    - 비슷한 예로 연관 규칙 분석의 척도인 지지도, 신뢰도, 향상도가 있다. (둘이 헷갈리면 안됨)

    차례대로 지지도 -> 신뢰도 -> 향상도 순으로 성능이 올라가며 조건부 확률을 통해 계산한다.

    출처 : rk1993.tistory.com/entry/%EB%AA%A8%EB%8D%B8-%EC%84%B1%EB%8A%A5-%ED%8F%89%EA%B0%80-%EC%A7%80%ED%91%9C-%ED%9A%8C%EA%B7%80-%EB%AA%A8%EB%8D%B8-%EB%B6%84%EB%A5%98-%EB%AA%A8%EB%8D%B8

     

    모델 성능 평가 지표 (회귀 모델, 분류 모델)

    모델 성능 평가 모델을 만드는 이유는 일반화를 통해 미래(미실현) 예측을 추정하고자 하는 것이다. 그래서 우리는 train data로 학습시키고, 알고리즘을 계속해서 수정하고, 주어진 가설 공간에서

    rk1993.tistory.com

     

    # 단답형

    1) 데이터마이닝의 순서

    - 목적 설정

    - 데이터 준비

    - 가공

    - 기법 적용

    - 검증

    2) 정상성의 선 조건

    - 평균이 일정

    - 분산이 시점에 의존하지 않음

    - 공분산이 시차에만 의존하고 실제 어느 시점에는 의존하지 않음

     

    # 회귀분석의 4대 가정

    1) 독립변수와 종속변수가 선형관계를 가져야 함

    2) 독립변수의 모든 값들은 독립적이어야 함

    3) 잔차가 정규분포를 따르면서 서로 독립적임 -> 잔차가 등분산성을 이룰 때 변수들의 유의미성이 높아짐

    4) 독립변수의 모든 값에 대해 오차들의 분산이 일정함

     

    # R 패키지

    1) party : 의사나무결정 (분류)

    2) klaR : 분류와 시각화

    3) sqldf : SQL을 쓰게 해주는 라이브러리

    4) reshape : 데이터 재구조화

Designed by Tistory.