탐색적 데이터 분석
확률의 순수 이론적인 측면과는 달리, 통계학은 데이터 분석과 모델링을 다루는 일종의 응용과학이라고 할 수 있음
20세기 초 실헙계획법과 최대우도추정의 핵심 개념을 소개한 로널드 피셔는 현대 통계학의 대표적인 선구자
탐색적 데이터 분석; exploratory data analysis; EDA
이전의 통계학에서는 추론, 즉 샘플을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 과정에 관해 주로 다루었다면, 1962년 존 투키는 '데이터 분석의 미래'라는 논문을 통해 통계학의 개혁을 요구 = 데이터 분석이라는 새로운 과학적 학문을 제안
1.1 정형화된 데이터의 요소
데이터 과학에서 가장 중요한 도전 중 하나는 폭발적인 양의 원시 데이터를 활용 가능한 형태의 정보로 변환하는 것
연속형; continuous: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터. 구간형, 실수형, 수치형
이산; discrete: 횟수와 같은 정수값만 취할 수 있음. 정수형, 횟수
범주형; categorical: 가능한 범주 안의 값만을 취할 수 있음. 목록, 열거, 요인, 명목, 다항형
이진; binary: 두 개의 값만을 갖는 범주형 데이터의 특수한 경우. 이항적, 논리형, 지표, 불리언
순서형; ordinal: 값들 사이에 분명한 순위가 있는 범주형 데이터
1.2 테이블 데이터
데이터 분석에서 가장 대표적으로 사용되는 객체의 형태. 각 레코드를 나타내는 행과 피처를 나타내는 열로 이루어진 이차원 행렬.
데이터 프레임: 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조
피쳐: 일반적으로 테이블의 각 열이 하나의 피쳐를 의미. 특징, 속성, 입력, 예측변수;predictor, 변수
결과; outcome: 데이터 과학 프로젝트의 목표는 대부분 어떤 결과를 예측하는 데 있음. 결과를 예측하기 위해 피처를 사용. 종속변수, 응답, 목표, 출력
레코드: 일반적으로 테이블의 각 행은 하나의 레코드를 의미. 기록값, 사건, 사례, 예제, 관측값, 패턴, 샘플
1.3 위치 추정
데이터를 살펴보는 기초단계는 각 피처(변수)의 대푯값을 구하는 것. 이는 대부분의 값이 어디쯤에 위치하는지(중심경향성)를 나타내는 추정값
평균
가중평균
중간값
가중 중간값
절사평균; trimmed: 정해진 개수의 극단값을 제외한 나머지 값들의 평균. 절단평균; truncated
로버스트하다; robust: 극단값들에 민감하지 않다는 것을 의미. 저항성 있다; resistant
특잇값; outlier
1.3.1 평균
절사평균은 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말함
가중평균은 각 데이터값 xi에 가중치 wi를 곲한 값들의 총합을 다시 가중치의 총합으로 나눈 것
1.3.2 중간값과 로버스트 추정
특잇값
중간값은 결과를 왜곡할 수도 있는 특잇값들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있음
이상검출; anomaly detection에서는 대부분의 정상적인 데이터보다는 예외적으로 측정된 특잇값들이 주된 관심사
1.4 변이 추정
변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져있는지를 나타내는 산포도(dispersion)를 나타냄. 변이를 측정하고, 이를 줄이고, 실제 변이와 랜덤을 구분하고, 실제 변이의 다양한 요인들을 알아보고, 변이가 있는 상황에서 결정을 내리는 등, 통계의 핵심에 이 변이가 있음
편차; deviation: 관측값과 위치 추정값 사이의 차이. 오차, 잔차
분산; variance: 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값. 평균제곱오차
표준편차; standard deviation: 분산의 제곱근. 노름;norm, 유클리드 노름
평균절대편차; mean absolute deviation: 평균과의 편차의 절댓값의 평균. 맨해탄 노름
중간값의 중위절대편차; median absolute deviation from the median: 중간값과의 편차의 절댓값의 중간값
범위; range: 데이터의 최댓값과 최솟값의 차이
순서통계량; order statistics: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형. 순위
백분위수; percentile: 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값. 분위수
사분위범위; interquartile range: 75번째 백분위수와 25번째 백분위수 사이의 차이. IQR
1.4.1 표준편차와 관련 추정값들
변위 추정들은 관측 데이터와 위치 추정값 사이의 차이, 즉 편차를 기본으로 함.
표준편차는 원래 데이터와 같은 척도(scale)에 있기 때문에 분산보다 훨씬 해석하기 쉬움.
수학적으로 제곱한 값이 절댓값보다 통계 모델을 다루는 데 더편리하다는 통계 이론의 뒷받침으로, 평균절대편차보다 표준편차를 더 선호.
자유도. 분산 수식에서 n-1 대신 n을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. 이를 편향(biased) 추정이라고 부름. 하지만 n-1 로 나눈다면 분산은 비편향(unbiased) 추정이 됨
분산, 표준편차, 평균절대편차 모두 특잇값과 극단값에 로버스트하지 않다. 분산과 표준편차는 제곱 편차를 사용하기 때문에, 특히 특잇값에 민감함
로버스트한 변위 추정값으로는 중간값으로부터의 중위절대편차(MAD)가 있음
1.4.2 백분위수에 기초한 추정
변위를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지를 보는 것. 정렬(순위) 데이터를 나타내는 통계량을 순서통계량이라고 부름. 여기서 가장 기본이 되는 측도는 가장 큰 값과 작은 값의 차이를 나타내는 범위.
가장 대표적인 방법은 사분위범위.