데이터분석/데이터 탐색

데이터 분석의 시작은 데이터 탐색이다.

상선약수64 2023. 9. 30. 10:34
반응형

수집된 데이터를 분석하기 위해서는 가장 먼저 데이터 탐색부터 시작됩니다.

탐색적 데이터 분석( Exploratory Data Analysis)의 목적 은 다음과 같습니다.

  •   데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법 입니다.
  •   이러한 정보를 기초로 통계모형을 세울 수 있습니다.
  •   미지의 특성을 파악하고 자료구조를 파악할 수 있는 과정입니다. 
탐색적 데이터 분석은 
데이터 분석의 시작입니다.

 

1. 데이터 척도
  • 데이터 척도는 범주형데이터(카테고리데이터)와 계량형데이터(실수형데이터)로 구분됩니다.
  • 범주형 데이터는 어느 범주에 속하는지 판별하는 데이로 명목척도, 서열척도가 있습니다.
  • 계량형 데이터는 재거나(연속형)나 세는(이산형) 데이터로서 구간 및 비율척도가 있습니다.
  • 데이터 척도를 구분을 잘하셔야 데이터 탐색을 원활히 진행할 수 있습니다.

 

2. 데이터 정리 요약
  • 범주형데이터는 표와 그림으로 정리요약을 할 수 있습니다.
성별 도수(빈도) 상대도수(백분율)
남자  360 0.329
여자  734 0.671
합계 1094 1.000

 

  • 계량형데이터는 표와 그림 그리고 숫값(기술통계량)으로 정리할 수 있습니다. 

       - 기술통계량 : 

         대표값 : 데이터의 중심을 파악하고, 평균, 중앙값, 최빈값이 있습니다.

         산포도 : 중심에서 퍼져있는 정도로서 표준편차, 분산, 범위, 사분위범위, 변동계수 등이 있습니다.

 

  •   대표값

      - 대표값(표본평균) : n개의 관측값의 산술평균

     - 대표값(중앙값) : 관측값을 크기 순으로 정렬하였을 때 중앙에 위치하는 값      

 

  • 산포도 

     - 표본분산 : 관측값들의 평균을 중심으로 흩어진 정도                        

    - 표본표준편차 : 분산의 제곱근

   - 범위(range) : 최대값 - 최소값

   - 분위수(quantile) : 분위수를 구하는 방법은 다양하게 존재함

     사분위수 : 자료의 양을 4등분하는 지점의 값

     백분위수  : 자료의 양을 100등분하는 지점의 값

            * 제1사분위수 : 제25백분위수

            * 제2사분위수 : 제50백분위수=중앙값

            * 제3사분위수 : 제75백분위수 

   - 사분위범위(interquartile range, IQR) : 중앙값을 중심으로 전체 관측값들의 흩어진 정도