공부 이야기/그냥 찾아보는 공부

데이터 분석 중간 정리 (3/4)

mind: 2020. 11. 16. 21:28

 

# 연관 규칙 계산

1) 지지도

- 키워드 포함 / 전체

2) 신뢰도

- 키워드 포함 / 앞키워드 포함

 

# 단답형

1) 비정형 데이터마이닝 분석 방법 중 특정기간별 발생 문서량의 추이를 분석하는 것

-> buzz 분석

2) matrix(c(1:12),3.4)

-> 1 4 7 10
    2 5 8 11
    3 6 9 12

3) 연관분석을 수행하기 위해 빈발 아이템 집합과 연관규칙이라고 하는 두 가지 형태로 표현하는, 연관성 분석을 수행하는 대표적인 1세대 알고리즘

-> 어프라이어리 알고리즘

- 최소지지도를 갖는 연관규칙

4) NaN : 수학적으로 불가능한 오류를 표시

5) 자료의 위치를 나타내는 척도의 하나 / 전체의 중앙에 위치하는 수치 / 자료의 분포가 비대칭인 경우 자료의 중심을 파악할 수 있는 방법

-> median (중위수)

6) 데이터 마이닝의 절차 중 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로 바로 실험에서 활용할 수 있는 상태

-> corpus

7) 연속형 타깃변수를 예측하는 의사결정나무

-> 회귀나무

 

# 잔차와 자기상관, 더빈-왓슨검정결과

- 선형 및 비선형 회귀 분석에서는 잔차가 서로 상관되지 않고 독립적인 것으로 가정

- 즉, p-value 값이 크게 나올 경우 자기 상관이 유의하지 않은 경우이고 잔차가 독립성을 가진다는 뜻임.

-> 잔차가 독립적인 경우 불규칙한 모형이 나옴

 

# 과적합이란?

- 매우 복잡한 모형을 사용하여 학습오차를 작게 만들었지만 예측오차가 크게 나올 수 있는 현상

 

 

# 분석기법 차이

- 고객속성에 따른 집단의 분석은 군집분석

- dendogram을 그려서 결과를 확인하는 것은 군집분석

- linkage clustering은 계층적 군집분석 방법의 하나

- 여러 개의 모형을 결합하여 좋은 예측성능을 얻는 기법은 앙상블 분석기법

- 관측자가 미리 설정한 값에 대한 분석은 분류분석

 

# 데이터 준비작업의 순서

데이터 추출 -> 데이터 정제 -> 데이터 파생* -> 데이터 분할

* 데이터 파생 : cm, kg 처럼 단위 따위의 단어를 덧붙이거나 특정 함수에 의해 값을 하나 더 만드는 것

 

# 유의확률, 검정통계량, 기각역

- 검정통계량이 실제 관측된 값보다 대립가설을 지지하는 방향으로 더욱 치우칠 확률, p-value 초과의 값

- 귀무가설하에서 계산된 값이며 유의확률이 작을수록 귀무가설에 대한 반증이 강함

- 기각역) 귀무가설이 옳다는 전제하에 계산한 검정통계량의 분포에서 확률이 유의수준 a인 부분을 의미

A 값 = 기각역, 빗금친 영역은 유의확률

출처) m.blog.naver.com/PostView.nhn?blogId=yunjh7024&logNo=220840282403&proxyReferer=https:%2F%2Fwww.google.com%2F

 

Story 10.2[가설검정] 기각역과 p-value(p 값)

​기각역 과 P-value이해를 돕기 위해 이 전에 예를 들었던 우리나라 사람들의 평균 발 사이즈의 이야기를...

blog.naver.com

 

# R 함수

1) hist() : 히스토그램

2) pairs() : 산점도 행렬 도식화

3) ggmap() : 지도기반시각화

4) boxplot() : 상자그림

 

# 신경망분석의 한계

- 은닉층과 은닉마디의 적절한 개수를 결정하기 어려움

- 효과적인 결합함수와 활성함수를 선택해야 함

- 간혹 최적해에 도달하지 못할 수 있음

- 독립변수 간 교호작용*을 쉽게 파악할 수 없음

* 교호작용 : 한 요인의 효과가 다른 요인의 수준에 의존하는 경우

예를 들어, 시리얼 곡물은 포장 공정 전에 충분히 건조되어야 할 때

 

# 구간 척도

- 숫자로 표시될 수는 있으나 절대적인 원점이 없어야 함 (두 값 사이의 비율이 의미가 없어야 함)

 

※ 다중회귀분석에서 종속변수를 설명하는데 중요한 독립변수로 적절한 것은 표본화 자료로 추정한 계수가 가장 큰 변수

※ 데이터의 양이 충분하지 않은 경우 모형을 평가할 때 CV(Cross Validation)이 사용

※ 상관분석에서 상관계수가 0이 나와도 독립적인 것이 아님. 상관분석은 변수 간의 관계가 있을 때 사용하는 것이므로 상관성이 약한 것일 뿐임