데이터분석/데이터 탐색 5

다양한 데이터 스케일링(Data Scaling)

데이터 스케일링이란 데이터 전처리 과정 중의 하나로서, 피처(feature) 즉 속성 들마다 데이터값의 범위의 차이가 클 경우 데이터 스케일링을 해야 됩니다. 즉 데이터 스케일링을 통해 모든 피처들의 데이터 분포나 범위를 동일하게 조정해 줍니다. 사이킷런에서 제공하는 5가지의 스케일러입니다. 종류 설명 StandardScaler 평균 0 과 표준편차1이 되도록 정규화하는 기본적인 스케일러 MinMaxScaler 최대값 1, 최소값 0이 되도록 스케일링 MaxAbsScaler 최대 절대값이 1, 최소값이 0이 되도록 스케일링 RobustScaler 중앙값과 IQR을 사용하여 이상치의 영향을 최소화하여 스케일링 Normalizer 행단위의 정규화하는 스케일링 가장 많이 사용되는 StandardScaler를 ..

교차분석과 상관분석

1. 교차분석 교차분석은 두 범주 변수 간 관계가 상호 독립 관계인지, 연관성을 맺고 있는지를 검증하는 방법입니다. 적합도 검정, 독립성 검정, 동일성 검정에 사용되는데, 카이제곱 검정 통계량을 이용됩니다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법입니다. 2. 상관분석 두 변수 간의 선형적 관계를 상관 계수로 표현합니다. 상관계수는 -1과 1 사이 값을 가집니다. 만약 상관 계수가 1에 가깝다면 서로 강한 양의 상관 관계가 있는 것이고, ..

데이터 전처리 과정

모든 데이터 분석에서는 반드시 데이터 전처리 과정이 필요하다. 데이터 전처리 과정은 많은 시간이 필요합니다. 데이터 전처리과정은 데이터 분석 결과 및 모델링이 직접적인 영향을 미치는 과정이므로 매우 중요합니다. 데이터 과학자에게 전처리과정의 작업비중이 60% 이다. 데이터 불러오기 및 결측치 확인 데이터 파일을 불러오고, info()메소드를 이용하여 행과 컬럼수를 확인할 수 있습니다. 또한 결측치가 있는지도 확인할 수 있습니다 #데이터 파일을 불러오고, 데이터 확인 df = pd.read_csv('/content/drive/MyDrive/kaggle_data/Data Carrard et al. 2022 MedTeach.csv') df.head() df.shape #컬럼과 행을 확인함 df.info() #..

데이터 분석의 시작은 데이터 탐색이다.

수집된 데이터를 분석하기 위해서는 가장 먼저 데이터 탐색부터 시작됩니다. 탐색적 데이터 분석( Exploratory Data Analysis)의 목적 은 다음과 같습니다. 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법 입니다. 이러한 정보를 기초로 통계모형을 세울 수 있습니다. 미지의 특성을 파악하고 자료구조를 파악할 수 있는 과정입니다. 탐색적 데이터 분석은 데이터 분석의 시작입니다. 1. 데이터 척도 데이터 척도는 범주형데이터(카테고리데이터)와 계량형데이터(실수형데이터)로 구분됩니다. 범주형 데이터는 어느 범주에 속하는지 판별하는 데이로 명목척도, 서열척도가 있습니다. 계량형 데이터는 재거나(연속형)나 세는(이산형) 데이터로서 구간 및 비율척도가 있습니다. 데이터 척도를 구분을 잘하..

두 변수 간의 관련성에 대한 이야기

상관계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 통계적 측도입니다(로 기호화). 상관계수(r)는 -1에서 1사이의 값을 가지며, 1일 경우 완전한 양(+)의 상관관계, -1일 경우 완전한 음(-)의 상관관계를 가진다고 할 수 있습니다. 0에 가까우면 두변수 간의 선형관계는 약하다고 볼 수 있습니다. 두변수의 관련성은 상관계수와 산점도로 확인 1. 상관계수 구하기 사용데이터는 iris(붓꽃) 데이터를 활용합니다. iris데이터에 대한 설명을 보려면 여기를 클릭하고 2. 붓꽃테이터 이해하기를 보시면 됩니다. #데이터를 불러오고, DESCR속성을 이용하여 데이터의 상세정보를 확인 from sklearn.datasets import load_iris iris = load_iris() p..

728x90