지식나누기 80

교차분석과 상관분석

1. 교차분석 교차분석은 두 범주 변수 간 관계가 상호 독립 관계인지, 연관성을 맺고 있는지를 검증하는 방법입니다. 적합도 검정, 독립성 검정, 동일성 검정에 사용되는데, 카이제곱 검정 통계량을 이용됩니다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법입니다. 2. 상관분석 두 변수 간의 선형적 관계를 상관 계수로 표현합니다. 상관계수는 -1과 1 사이 값을 가집니다. 만약 상관 계수가 1에 가깝다면 서로 강한 양의 상관 관계가 있는 것이고, ..

데이터로 보는 고령자 디지털 격차 데이터전처리, 데이터탐색, 데이터시각화

한국지능정보사회연구원에서는 매년 디지털정보격차 실태조사를 실시합니다. 실태조사한 원본데이터를 활용하여 고령자의 디지털 격차를 확인해 보고, 방안을 제시하고 합니다. 실습에 사용될 데이터 파일은 https://github.com/sense64/data_viz/tree/main/data에 제공되고 있으며, 이중 sinor_data.xlsx 파일을 다운로드합니다. 1. 데이터 불러오기 판다스의 read_excel() 메서드를 메서드를 이용하여 파일을 불러옵니다. head() 메서드를 이용하여 데이터를 확인합니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns df = pd.read_excel..

데이터이야기 2023.10.03

데이터 전처리 과정

모든 데이터 분석에서는 반드시 데이터 전처리 과정이 필요하다. 데이터 전처리 과정은 많은 시간이 필요합니다. 데이터 전처리과정은 데이터 분석 결과 및 모델링이 직접적인 영향을 미치는 과정이므로 매우 중요합니다. 데이터 과학자에게 전처리과정의 작업비중이 60% 이다. 데이터 불러오기 및 결측치 확인 데이터 파일을 불러오고, info()메소드를 이용하여 행과 컬럼수를 확인할 수 있습니다. 또한 결측치가 있는지도 확인할 수 있습니다 #데이터 파일을 불러오고, 데이터 확인 df = pd.read_csv('/content/drive/MyDrive/kaggle_data/Data Carrard et al. 2022 MedTeach.csv') df.head() df.shape #컬럼과 행을 확인함 df.info() #..

판다스를 활용한 데이터 시각화

판다스는 matplotlib와 결합되어 있어 손쉽게 시각화를 할 수 있습니다. plot이라는 시각화 메서드가 내장되어 있으며, plot은 matplotlib를 내부에서 임포트 하여 사용됩니다. 판다스는 matplotlib와 결합되어 있어 plot() 메소드를 이용하여 시각화할 수 있음 plot 메소드의 kind라는 인수를 바꾸면 다양한 차트를 그릴 수 있습니다. 다양한 인수값을 지원합니다. bar pie hist box kde scatter area 막대 그래프(bar) import pandas as pd import matplotlib as plt plt.rc('font', family='NanumBarunGothic') #사용하는 폰트는 나눔고딕체 file="/content/drive/MyDrive/..

강력한 pandas를 이용한 데이터 처리 2

판다스는 행과 열로 구조화된 데이터프레임을 조작하고 데이터 처리 및 분석을 지원합니다. 1. 데이터프레임 구조 데이터프레임 구조는 index와 columns 객체를 정의하여 사용하고 있습니다. import pandas as pd file="/content/drive/MyDrive/ML Lecture/data/vehicle.csv" df= pd.read_csv(file, encoding='CP949') #한글 df.head() 출력결과를 살펴보면 각행의 index는 0부터 n까지 자동으로 부여되고, 비워 두었던 첫 열은 Unnamed:0으로 이름이 부여되어 있습니다. 판다스의 외부파일을 읽을때, index_col 매개변수에 0이라고 하면 첫번째 열이 인덱스로 사용이 되므로, 아래 출력결과를 확인하면 자동으..

강력한 pandas를 이용한 데이터 처리 1

데이터 분석을 위한 필수 패키지는 Pandas, Numpy 그리고 Matplotlib이고, 판다스는 넘파이를 기반이기 때분에 처리속도가 빠르고 행과 열로 구조화된 데이터프레임을 조작하고 데이터 처리와 분석을 위한 다양하면서 강력한 함수를 지원합니다. 판다스는데이터 처리와 분석을 위한 다양한 함수 지원 https://pandas.pydata.org/ pandas - Python Data Analysis Librarypandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install..

데이터 분석의 시작은 데이터 탐색이다.

수집된 데이터를 분석하기 위해서는 가장 먼저 데이터 탐색부터 시작됩니다. 탐색적 데이터 분석( Exploratory Data Analysis)의 목적 은 다음과 같습니다. 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법 입니다. 이러한 정보를 기초로 통계모형을 세울 수 있습니다. 미지의 특성을 파악하고 자료구조를 파악할 수 있는 과정입니다. 탐색적 데이터 분석은 데이터 분석의 시작입니다. 1. 데이터 척도 데이터 척도는 범주형데이터(카테고리데이터)와 계량형데이터(실수형데이터)로 구분됩니다. 범주형 데이터는 어느 범주에 속하는지 판별하는 데이로 명목척도, 서열척도가 있습니다. 계량형 데이터는 재거나(연속형)나 세는(이산형) 데이터로서 구간 및 비율척도가 있습니다. 데이터 척도를 구분을 잘하..

seoborn 패키지로 멋진 시각화하자

seoborn 패키지는 matplotlib기반하였고 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지, maptplotlib보다 높은 수준의 인터페이스를 제공하여 사용자들이 쉽게 데이터를 분석하고 시각화할 수 있습니다. seobor 라이브러리는 matplotlib기반이고 고급스러운 시각화를 쉽게 그릴 수 있음 http://seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.12.2 documentation seaborn: statistical data visualization seaborn.pydata.org seoborn은 다양한 dataset이 제공되는데 어떤 데이터셑이 있는지 확인하고, tips데이터 셑을 ..

두 변수 간의 관련성에 대한 이야기

상관계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 통계적 측도입니다(로 기호화). 상관계수(r)는 -1에서 1사이의 값을 가지며, 1일 경우 완전한 양(+)의 상관관계, -1일 경우 완전한 음(-)의 상관관계를 가진다고 할 수 있습니다. 0에 가까우면 두변수 간의 선형관계는 약하다고 볼 수 있습니다. 두변수의 관련성은 상관계수와 산점도로 확인 1. 상관계수 구하기 사용데이터는 iris(붓꽃) 데이터를 활용합니다. iris데이터에 대한 설명을 보려면 여기를 클릭하고 2. 붓꽃테이터 이해하기를 보시면 됩니다. #데이터를 불러오고, DESCR속성을 이용하여 데이터의 상세정보를 확인 from sklearn.datasets import load_iris iris = load_iris() p..

데이타 시각화를 위한 도구 matplotlib

데이터 시각화를 위한 파이썬 패키지는 matplotlib이고 그 하위 모듈 중 pyplot 이라나는 서브모듈 pyplot 모듈을 주로 사용합니다. 이 서브 모듈은 시각화를 위한 핵심적인 함수와 클래스들이 정의되어 있습니다. matplotlib패키지는 데이터 시각화 도구 이다. https://matplotlib.org/2.0.2/api/pyplot_api.html pyplot — Matplotlib 2.0.2 documentation Parameters:X : array_like, shape (n, m) or (n, m, 3) or (n, m, 4) Display the image in X to current axes. X may be an array or a PIL image. If X is an arr..

728x90