데이터 분석 중간 정리 (3/4)
# 연관 규칙 계산
1) 지지도
- 키워드 포함 / 전체
2) 신뢰도
- 키워드 포함 / 앞키워드 포함
# 단답형
1) 비정형 데이터마이닝 분석 방법 중 특정기간별 발생 문서량의 추이를 분석하는 것
-> buzz 분석
2) matrix(c(1:12),3.4)
-> 1 4 7 10
2 5 8 11
3 6 9 12
3) 연관분석을 수행하기 위해 빈발 아이템 집합과 연관규칙이라고 하는 두 가지 형태로 표현하는, 연관성 분석을 수행하는 대표적인 1세대 알고리즘
-> 어프라이어리 알고리즘
- 최소지지도를 갖는 연관규칙
4) NaN : 수학적으로 불가능한 오류를 표시
5) 자료의 위치를 나타내는 척도의 하나 / 전체의 중앙에 위치하는 수치 / 자료의 분포가 비대칭인 경우 자료의 중심을 파악할 수 있는 방법
-> median (중위수)
6) 데이터 마이닝의 절차 중 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로 바로 실험에서 활용할 수 있는 상태
-> corpus
7) 연속형 타깃변수를 예측하는 의사결정나무
-> 회귀나무
# 잔차와 자기상관, 더빈-왓슨검정결과
- 선형 및 비선형 회귀 분석에서는 잔차가 서로 상관되지 않고 독립적인 것으로 가정
- 즉, p-value 값이 크게 나올 경우 자기 상관이 유의하지 않은 경우이고 잔차가 독립성을 가진다는 뜻임.
-> 잔차가 독립적인 경우 불규칙한 모형이 나옴
# 과적합이란?
- 매우 복잡한 모형을 사용하여 학습오차를 작게 만들었지만 예측오차가 크게 나올 수 있는 현상
# 분석기법 차이
- 고객속성에 따른 집단의 분석은 군집분석
- dendogram을 그려서 결과를 확인하는 것은 군집분석
- linkage clustering은 계층적 군집분석 방법의 하나
- 여러 개의 모형을 결합하여 좋은 예측성능을 얻는 기법은 앙상블 분석기법
- 관측자가 미리 설정한 값에 대한 분석은 분류분석
# 데이터 준비작업의 순서
데이터 추출 -> 데이터 정제 -> 데이터 파생* -> 데이터 분할
* 데이터 파생 : cm, kg 처럼 단위 따위의 단어를 덧붙이거나 특정 함수에 의해 값을 하나 더 만드는 것
# 유의확률, 검정통계량, 기각역
- 검정통계량이 실제 관측된 값보다 대립가설을 지지하는 방향으로 더욱 치우칠 확률, p-value 초과의 값
- 귀무가설하에서 계산된 값이며 유의확률이 작을수록 귀무가설에 대한 반증이 강함
- 기각역) 귀무가설이 옳다는 전제하에 계산한 검정통계량의 분포에서 확률이 유의수준 a인 부분을 의미
Story 10.2[가설검정] 기각역과 p-value(p 값)
기각역 과 P-value이해를 돕기 위해 이 전에 예를 들었던 우리나라 사람들의 평균 발 사이즈의 이야기를...
blog.naver.com
# R 함수
1) hist() : 히스토그램
2) pairs() : 산점도 행렬 도식화
3) ggmap() : 지도기반시각화
4) boxplot() : 상자그림
# 신경망분석의 한계
- 은닉층과 은닉마디의 적절한 개수를 결정하기 어려움
- 효과적인 결합함수와 활성함수를 선택해야 함
- 간혹 최적해에 도달하지 못할 수 있음
- 독립변수 간 교호작용*을 쉽게 파악할 수 없음
* 교호작용 : 한 요인의 효과가 다른 요인의 수준에 의존하는 경우
예를 들어, 시리얼 곡물은 포장 공정 전에 충분히 건조되어야 할 때
# 구간 척도
- 숫자로 표시될 수는 있으나 절대적인 원점이 없어야 함 (두 값 사이의 비율이 의미가 없어야 함)
※ 다중회귀분석에서 종속변수를 설명하는데 중요한 독립변수로 적절한 것은 표본화 자료로 추정한 계수가 가장 큰 변수
※ 데이터의 양이 충분하지 않은 경우 모형을 평가할 때 CV(Cross Validation)이 사용
※ 상관분석에서 상관계수가 0이 나와도 독립적인 것이 아님. 상관분석은 변수 간의 관계가 있을 때 사용하는 것이므로 상관성이 약한 것일 뿐임