반응형
수집된 데이터를 분석하기 위해서는 가장 먼저 데이터 탐색부터 시작됩니다.
탐색적 데이터 분석( Exploratory Data Analysis)의 목적 은 다음과 같습니다.
- 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법 입니다.
- 이러한 정보를 기초로 통계모형을 세울 수 있습니다.
- 미지의 특성을 파악하고 자료구조를 파악할 수 있는 과정입니다.
탐색적 데이터 분석은
데이터 분석의 시작입니다.
1. 데이터 척도
- 데이터 척도는 범주형데이터(카테고리데이터)와 계량형데이터(실수형데이터)로 구분됩니다.
- 범주형 데이터는 어느 범주에 속하는지 판별하는 데이로 명목척도, 서열척도가 있습니다.
- 계량형 데이터는 재거나(연속형)나 세는(이산형) 데이터로서 구간 및 비율척도가 있습니다.
- 데이터 척도를 구분을 잘하셔야 데이터 탐색을 원활히 진행할 수 있습니다.
2. 데이터 정리 요약
- 범주형데이터는 표와 그림으로 정리요약을 할 수 있습니다.
성별 | 도수(빈도) | 상대도수(백분율) |
남자 | 360 | 0.329 |
여자 | 734 | 0.671 |
합계 | 1094 | 1.000 |
- 계량형데이터는 표와 그림 그리고 숫값(기술통계량)으로 정리할 수 있습니다.
- 기술통계량 :
대표값 : 데이터의 중심을 파악하고, 평균, 중앙값, 최빈값이 있습니다.
산포도 : 중심에서 퍼져있는 정도로서 표준편차, 분산, 범위, 사분위범위, 변동계수 등이 있습니다.
- 대표값
- 대표값(표본평균) : n개의 관측값의 산술평균
- 대표값(중앙값) : 관측값을 크기 순으로 정렬하였을 때 중앙에 위치하는 값
- 산포도
- 표본분산 : 관측값들의 평균을 중심으로 흩어진 정도
- 표본표준편차 : 분산의 제곱근
- 범위(range) : 최대값 - 최소값
- 분위수(quantile) : 분위수를 구하는 방법은 다양하게 존재함
사분위수 : 자료의 양을 4등분하는 지점의 값
백분위수 : 자료의 양을 100등분하는 지점의 값
* 제1사분위수 : 제25백분위수
* 제2사분위수 : 제50백분위수=중앙값
* 제3사분위수 : 제75백분위수
- 사분위범위(interquartile range, IQR) : 중앙값을 중심으로 전체 관측값들의 흩어진 정도
'데이터분석 > 데이터 탐색' 카테고리의 다른 글
다양한 데이터 스케일링(Data Scaling) (0) | 2023.11.05 |
---|---|
교차분석과 상관분석 (0) | 2023.10.03 |
데이터 전처리 과정 (2) | 2023.10.02 |
두 변수 간의 관련성에 대한 이야기 (0) | 2023.09.27 |