데이터분석 26

교차분석과 상관분석

1. 교차분석 교차분석은 두 범주 변수 간 관계가 상호 독립 관계인지, 연관성을 맺고 있는지를 검증하는 방법입니다. 적합도 검정, 독립성 검정, 동일성 검정에 사용되는데, 카이제곱 검정 통계량을 이용됩니다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법입니다. 2. 상관분석 두 변수 간의 선형적 관계를 상관 계수로 표현합니다. 상관계수는 -1과 1 사이 값을 가집니다. 만약 상관 계수가 1에 가깝다면 서로 강한 양의 상관 관계가 있는 것이고, ..

데이터 전처리 과정

모든 데이터 분석에서는 반드시 데이터 전처리 과정이 필요하다. 데이터 전처리 과정은 많은 시간이 필요합니다. 데이터 전처리과정은 데이터 분석 결과 및 모델링이 직접적인 영향을 미치는 과정이므로 매우 중요합니다. 데이터 과학자에게 전처리과정의 작업비중이 60% 이다. 데이터 불러오기 및 결측치 확인 데이터 파일을 불러오고, info()메소드를 이용하여 행과 컬럼수를 확인할 수 있습니다. 또한 결측치가 있는지도 확인할 수 있습니다 #데이터 파일을 불러오고, 데이터 확인 df = pd.read_csv('/content/drive/MyDrive/kaggle_data/Data Carrard et al. 2022 MedTeach.csv') df.head() df.shape #컬럼과 행을 확인함 df.info() #..

데이터 분석의 시작은 데이터 탐색이다.

수집된 데이터를 분석하기 위해서는 가장 먼저 데이터 탐색부터 시작됩니다. 탐색적 데이터 분석( Exploratory Data Analysis)의 목적 은 다음과 같습니다. 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법 입니다. 이러한 정보를 기초로 통계모형을 세울 수 있습니다. 미지의 특성을 파악하고 자료구조를 파악할 수 있는 과정입니다. 탐색적 데이터 분석은 데이터 분석의 시작입니다. 1. 데이터 척도 데이터 척도는 범주형데이터(카테고리데이터)와 계량형데이터(실수형데이터)로 구분됩니다. 범주형 데이터는 어느 범주에 속하는지 판별하는 데이로 명목척도, 서열척도가 있습니다. 계량형 데이터는 재거나(연속형)나 세는(이산형) 데이터로서 구간 및 비율척도가 있습니다. 데이터 척도를 구분을 잘하..

두 변수 간의 관련성에 대한 이야기

상관계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 통계적 측도입니다(로 기호화). 상관계수(r)는 -1에서 1사이의 값을 가지며, 1일 경우 완전한 양(+)의 상관관계, -1일 경우 완전한 음(-)의 상관관계를 가진다고 할 수 있습니다. 0에 가까우면 두변수 간의 선형관계는 약하다고 볼 수 있습니다. 두변수의 관련성은 상관계수와 산점도로 확인 1. 상관계수 구하기 사용데이터는 iris(붓꽃) 데이터를 활용합니다. iris데이터에 대한 설명을 보려면 여기를 클릭하고 2. 붓꽃테이터 이해하기를 보시면 됩니다. #데이터를 불러오고, DESCR속성을 이용하여 데이터의 상세정보를 확인 from sklearn.datasets import load_iris iris = load_iris() p..

K-Nearest Neighbors 알고리즘 이해과 붓꽃(IRIS) 데이터 활용

K-Nearest Neighbors 알고리즘에 대해 이해하고 붓꽃(IRIS) 데이터 활용하여 실습하고자 한다 K-nearest neighbors(K-최근접 이웃) 즉 KNN classification 머신러닝 기법은 분류(Classification) 알고리즘이다. 주변의 가장 가까운 K개의 데이터를 보고 데이터가 속할 그룹을 판단하는 알고리즘이 K-NN 알고리즘으로 가까운 거리를 측정할 땐 유클리드 거리(Euclidean distance)를 사용함. K-Nearest Neighbors 알고리즘을 이용하여 붓꽃 종을 분류하기 1. KNN 알고리즘 이해하기 K-nearest neighbors(K-최근접 이웃) 알고리즘은 주변의 가장 가까운 K개의 데이터를 보고 데이터가 속할 그룹을 판단하는 알고리즘임. K-..

데이터 분류(Classification)과 군집화(Clustering)의 차이점

군집화와 분류의 차이점 이해하기 분류 : 지도학습의 종류, 군집 : 비지도 학습 1. 분류(Classification)과 군집(Clustering) 차이점 분류 : 각개체의 소속집단의 정보를 알고 있을 경우새로운 데이터의 그룹을 예측하기 위한 것(지도학습) 군집 : 각개체의 소속집단의 정보를 모를 경우, 데이터의 특성을 알고 싶은 경우(비지도 학습) 2. 학습방법과 예시 분류 : 분류 작업은 레이블(소속집단의 정보)된 학습 데이터를 사용하여 모델을 훈련하고, 이 모델을 사용하여 새로운 데이터를 예측하거나 분류합니다. 주요 분류 알고리즘에는 아래와 같고, 사례는 이메일 스팸 필터링, 손글씨 숫자 인식, 암 종양 여부 판단 등과 같은 것이 분류에 해당합니다. 로지스틱 회귀 의사결정 트리 랜덤 포레스트 최근접..

728x90