-
데이터분석 중간 정리 (2/4)공부 이야기/그냥 찾아보는 공부 2020. 11. 16. 14:33
# 분포의 종류, 검정통계량
반복적으로 관측되는 결과를 집합적으로 살펴보면 특정적으로 분포의 경향을 이루는 것을 확인할 수 있고
도출된 분포를 검정통계량에 활용할 수 있다.
즉, 검정통계량은 표본데이터에서 계산되는 값이고 특히 가설 검정 및 p-value 산출에 사용한다.
분포와 검정통계량
어떤 집단에서 개개의 관측값들을 측정하거나 혹은 동일한 현상에 대해 반복적으로 관측된 결과들을 집합적으로 살펴보면 특징적인 분포를 이루는 경향이 있다. 그러므로 우리가 연구를 통해
dermabae.tistory.com
- 종 모양을 띄는 대칭형태의 분포를 정규분포라고 한다.
- 이때 표준편차 값이 1인 정규분포는 표준정규분포라고 하고 평균 값을 통해 크기를 검정할 때 Z-검정을 사용한다.
- 표본 값이 충분하지 못할 때 혹은 모분산이 부족한 경우에는 T-분포를 사용하여 근사적으로 값을 계산하는데 이 때의 그래프는 좀 더 뾰족한 종 모양을 가진다.
-> 자유도가 표본(N)-2 값을 가짐
- N개의 표본들을 추출하고 각각의 측정치에 대한 값을 산출할 때 카이제곱분포를 사용한다.
- 두 집단의 평균이 같은지를 검정하기 위해 먼저 분산이 같은지를 검정해야 하는데, 이 때에는 F-분포를 사용한다.
-> F-분포는 두 개의 모집단의 분산 추정치의 비율로 정의되고 분산분석(ANOVA)와 선형회귀분석의 적합성을 판단할 때 자주 사용된다.
# 시계열 데이터
1) 정상성
- 모든 시점 간에 자료는 의존이다. -> 현 시점의 자료가 과거 시점의 자료에 의존하는 시계열 데이터의 공통적인 특징
- 시점 t와 s의 공분산(covariance)은 시차(t-s)에만 의존하고 실제 어느 시점인지에는 의존하지 않는다.
- 모든 시점에 대해 일정한 평균을 가진다.
- 모든 시점에 대해 일정한 분산을 가진다.
-> 따라서 평평한 모양의 그래프를 가지게 되고, 계절 요인이나 주기성이 보이지 않는다.
2) 계절 요인
- 고정된 주기에 따라 자료가 변화되는 요인
- ex) 일 년, 월별, 사분기 등
3) 자료 표현 모형
- 과거 시점의 관측 자료 => 자기회귀모형(AR)
- 과거 시점의 백색잡음 => 이동평균모형(MA)
- 과거 시점의 관측 자료와 백색잡음의 선형결합 => 자기회귀이동평균모형(ARMA)
m.blog.naver.com/bluefish850/220749045909
시계열 분석(Time Series Analysis)-모형
필자가 이전에 개괄에서 언급한 시계열의 한계에 대해서 이해했다면, 이제 간단히 시계열 정보를 접근하는 ...
blog.naver.com
-> ARIMA
ARMA 모형에서 더 나아가 추세를 판단할 수 있는 모형으로 correlation 뿐만이 아닌 cointegration도 변수에 포함
# 주성분 분석
주성분 분석은 표본 간 연관성이 있는 고차원의 데이터를 표본 간 연관성이 없는 저차원의 데이터로 환원하는 기법
데이터의 차원을 축소하는 동시에 범주형 변수를 수량화하는 데 사용
- 각 표본 데이터의 직교성을 제거하기 위해 직교변환을 사용하는데 분산이 가장 커지는 축을 첫번째 주성분으로 둔다.
(분산이 클수록 다른 데이터에 대한 연관성이 커지므로?ㅋ)
- 두번째 주성분을 계산할 때부터는 선형변환을 사용한다.
- 당연히 고유벡터, 고유값을 기본적으로 활용
1) 주성분 수 선택 시 고려사항
- 전체 변이의 공헌도
- 평균 고유값
- 스크리 그래프
# 결측치 및 이상치
- 이상치를 제거하는 것은 모델 구축 및 요건 정의 단계에서 하는 것이 아닌 실제 운영시 실무진들이 판단 후 진행한다.
# 수치
1) p-value
- probablity value의 줄임말로 귀무가설의 정당성을 판단하는데 사용.
- 귀무가설이 사실일 때 특정 결과가 나올 확률로 값이 작을수록 귀무가설이 정당함
2) DF
- 자유도, 표본에서 2를 뺀 값
3) R-squared
- Multiple과 Adjusted로 나뉘며 각 모델이 대상 변수의 몇 %를 설명하는지 나타냄
4) F-statistics
- 표본의 평균 혹은 분산 값
# 데이터 분할
1) 구축용, 검정용, 시험용으로 분리
2) 구축용 데이터는 초기의 데이터마이닝 모델을 만드는 데 사용
3) 검정용 데이터는 구축된 모델의 과잉 또는 과소맞춤 등의 미세조정 절차에 사용
- 교차확인은 구축용과 시험용을 번갈아가며 모형을 평가하는 방법
# 분류 vs 예측
- 예측은 설명변수들과 종속변수의 예측치에 대해 순차적인 관계에 대한 고려가 필요
# 데이터간 거리
1) 유클리드 거리
- 단순 산술 거리
2) 표준화 거리
- 관측 단위의 영향을 제거한 유클리드 거리
3) 맨하탄 거리
- 바둑판 같은 맨하탄 도시에서 본 따온 것으로 연속형이지 않은 이산적인 거리를 측정할 때 사용
- 데이터에 이상치를 제거할 수 없을 때 사용하는 '로버스트'한 측도
4) 마할라노비스 거리
- 각 변수들 간의 상관관계가 존재할 경우 사용하는 거리
# 모델 성능 평가 지표
-> 크게 정확도, 재현율(민감도), 정밀도 세 가지가 있다.
실제값과 예측값, True와 False를 이용해서 총 4가지의 상황을 만들어낼 수 있다.
1) 실제값과 예측값이 모두 True인 경우
2) 실제값과 예측값이 모두 False인 경우
3) 실제는 False인데 예측을 True로 한 경우
4) 실제는 True인데 예측을 False로 한 경우
흥미로운 것은 재현율(Recall)이다.
캐시 히트 알고리즘과 유사하게 긍정 케이스 중에서 진짜 긍정으로 나온 케이스에 대한 확률이기 때문이다.
- 비슷한 예로 연관 규칙 분석의 척도인 지지도, 신뢰도, 향상도가 있다. (둘이 헷갈리면 안됨)
차례대로 지지도 -> 신뢰도 -> 향상도 순으로 성능이 올라가며 조건부 확률을 통해 계산한다.
모델 성능 평가 지표 (회귀 모델, 분류 모델)
모델 성능 평가 모델을 만드는 이유는 일반화를 통해 미래(미실현) 예측을 추정하고자 하는 것이다. 그래서 우리는 train data로 학습시키고, 알고리즘을 계속해서 수정하고, 주어진 가설 공간에서
rk1993.tistory.com
# 단답형
1) 데이터마이닝의 순서
- 목적 설정
- 데이터 준비
- 가공
- 기법 적용
- 검증
2) 정상성의 선 조건
- 평균이 일정
- 분산이 시점에 의존하지 않음
- 공분산이 시차에만 의존하고 실제 어느 시점에는 의존하지 않음
# 회귀분석의 4대 가정
1) 독립변수와 종속변수가 선형관계를 가져야 함
2) 독립변수의 모든 값들은 독립적이어야 함
3) 잔차가 정규분포를 따르면서 서로 독립적임 -> 잔차가 등분산성을 이룰 때 변수들의 유의미성이 높아짐
4) 독립변수의 모든 값에 대해 오차들의 분산이 일정함
# R 패키지
1) party : 의사나무결정 (분류)
2) klaR : 분류와 시각화
3) sqldf : SQL을 쓰게 해주는 라이브러리
4) reshape : 데이터 재구조화
'공부 이야기 > 그냥 찾아보는 공부' 카테고리의 다른 글
데이터 분석 중간 정리 (4/4) (0) 2020.11.21 데이터 분석 중간 정리 (3/4) (0) 2020.11.16 데이터 분석 중간 정리 (1/4) (0) 2020.11.14 ADsP - 데이터 이해 ~ 데이터 분석 기획 (1) 2020.11.08 What's new in Android 11, 부드러운 키보드 팝업을 구현 (0) 2020.11.03