전체 글 84

scikit-learn의 데이터셋 활용

sklearn.dataset에서 제공되는 데이터 셋들이 존재합니다. Scikit-learn 라이브러리는 파이썬의 머신러닝 라이브러리 중 하나인 분류, 회귀분석, 군집화, 의사결정나무 등의 다양한 머신러닝 알고리즘을 적용할 수 있는 다양한 데이터셋이 있습니다. scikit-learn(사이킷런)은 머신러닝 라이브러리 참조 : https://scikit-learn.org/dev/index.html scikit-learn: machine learning in Python — scikit-learn 1.4.dev0 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved a..

데이터로 보는 고령자 디지털 정보 역량 군집화와 디지털 격차 해소 방안

고령자 디지털정보 역량을 군집화하여 군집데이터를 정의하고, 그에 따른 서비스 방안을 제시하고자 합니다. 해당 데이터는 레이블이 없어 비지도학습인 군집분석을 진행하고자 합니다. 군집분석은 계층적 분석, 중심 기반 분석, 밀도 기반 분석, 확률 분포 기반 분석 등이 있지만, 계측적 분석과 중심기반분석 중 K-Means 군집화로 진행하고자 합니다. 자세한 내용은 참조를 확인하시면 됩니다. 이 실습은 고령자정보역량을 input데이터로 사용하여 고령자의 디지털 정보 역량을 군집화하는 내용입니다. 각 군집별 격차해소를 위한 방안을 도출하고자 합니다. 1. Planning 2. Data Preparing 3. Data Analyzing - 계층적 군집 - 중심기반 군집 - Visualization 4. 방안제시 1...

데이터이야기 2023.10.09

중심 기반 군집의 K-Means 군집화 알고리즘

중심 기반 군집에 해당하는 KMeans 클러스터링 알고리즘은 n개의 중심점을 찍은 후에, 이 중심점에서 각 점간의 거리의 합이 가장 최소화가 되는 중심점 n의 위치를 찾고, 이 중심점에서 가까운 점들을 중심점을 기준으로 묶는 군집화 알고리즘 입니다. 중심 기반 군집에는 K-Means, K-Median, K-medoid 등이 있습니다. K-Means 군집화 알고리즘은 중심 기반 군집 종류 입니다. 1. K-Means의 장점 계층적으로 군집을 형성시키지 않고 개체들을 몇 개의 군집으로 구분 초기에 부적절한 병합(분리)이 일어났을 때 회복 가능 군집의 수를 사전에 정의 개체의 수가 많을 때 유용 계층적 군집법에 비하여 계산량이 적음 대용량 데이터를 빠르게 처리할 수 있음 2. K-Means의 절차 1.군집의 ..

데이터 계층적 군집화(Hierarchical Clustering)

비지도학습방법으로 유사한 데이터를 N개의 소그룹으로 묶어내는 것을 군집화(clustering)라 합니다. 예를 들어, 신용카드회사에서 고객 소비 데이터를 이용하여 유사한 소비 경향을 군집화하고, 유사 군집(cluster)에 대한 마케팅 활동을 할 수 있습니다. 군집화(Clustering)는 유사한 데이터들의 그룹으로 나누는 것 군집화 종류 종류 설명 알고리즘 에시 계층적 군집 (Hierarchical Clustering) 각 군집이 계층을 통해 구분되는 방법 (응집형, 분리형) Dendrogram 중심 기반 군집 (Centroid Based Clustering) 군집(클러스터)의 중심점(centroid)를 정한 뒤 클러스터의 중심점에 가까운 개체들을 하나의 군집으로 모아가면서 확장하는 방법 K-Means..

교차분석과 상관분석

1. 교차분석 교차분석은 두 범주 변수 간 관계가 상호 독립 관계인지, 연관성을 맺고 있는지를 검증하는 방법입니다. 적합도 검정, 독립성 검정, 동일성 검정에 사용되는데, 카이제곱 검정 통계량을 이용됩니다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법입니다. 2. 상관분석 두 변수 간의 선형적 관계를 상관 계수로 표현합니다. 상관계수는 -1과 1 사이 값을 가집니다. 만약 상관 계수가 1에 가깝다면 서로 강한 양의 상관 관계가 있는 것이고, ..

데이터로 보는 고령자 디지털 격차 데이터전처리, 데이터탐색, 데이터시각화

한국지능정보사회연구원에서는 매년 디지털정보격차 실태조사를 실시합니다. 실태조사한 원본데이터를 활용하여 고령자의 디지털 격차를 확인해 보고, 방안을 제시하고 합니다. 실습에 사용될 데이터 파일은 https://github.com/sense64/data_viz/tree/main/data에 제공되고 있으며, 이중 sinor_data.xlsx 파일을 다운로드합니다. 1. 데이터 불러오기 판다스의 read_excel() 메서드를 메서드를 이용하여 파일을 불러옵니다. head() 메서드를 이용하여 데이터를 확인합니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns df = pd.read_excel..

데이터이야기 2023.10.03

데이터 전처리 과정

모든 데이터 분석에서는 반드시 데이터 전처리 과정이 필요하다. 데이터 전처리 과정은 많은 시간이 필요합니다. 데이터 전처리과정은 데이터 분석 결과 및 모델링이 직접적인 영향을 미치는 과정이므로 매우 중요합니다. 데이터 과학자에게 전처리과정의 작업비중이 60% 이다. 데이터 불러오기 및 결측치 확인 데이터 파일을 불러오고, info()메소드를 이용하여 행과 컬럼수를 확인할 수 있습니다. 또한 결측치가 있는지도 확인할 수 있습니다 #데이터 파일을 불러오고, 데이터 확인 df = pd.read_csv('/content/drive/MyDrive/kaggle_data/Data Carrard et al. 2022 MedTeach.csv') df.head() df.shape #컬럼과 행을 확인함 df.info() #..

판다스를 활용한 데이터 시각화

판다스는 matplotlib와 결합되어 있어 손쉽게 시각화를 할 수 있습니다. plot이라는 시각화 메서드가 내장되어 있으며, plot은 matplotlib를 내부에서 임포트 하여 사용됩니다. 판다스는 matplotlib와 결합되어 있어 plot() 메소드를 이용하여 시각화할 수 있음 plot 메소드의 kind라는 인수를 바꾸면 다양한 차트를 그릴 수 있습니다. 다양한 인수값을 지원합니다. bar pie hist box kde scatter area 막대 그래프(bar) import pandas as pd import matplotlib as plt plt.rc('font', family='NanumBarunGothic') #사용하는 폰트는 나눔고딕체 file="/content/drive/MyDrive/..

강력한 pandas를 이용한 데이터 처리 2

판다스는 행과 열로 구조화된 데이터프레임을 조작하고 데이터 처리 및 분석을 지원합니다. 1. 데이터프레임 구조 데이터프레임 구조는 index와 columns 객체를 정의하여 사용하고 있습니다. import pandas as pd file="/content/drive/MyDrive/ML Lecture/data/vehicle.csv" df= pd.read_csv(file, encoding='CP949') #한글 df.head() 출력결과를 살펴보면 각행의 index는 0부터 n까지 자동으로 부여되고, 비워 두었던 첫 열은 Unnamed:0으로 이름이 부여되어 있습니다. 판다스의 외부파일을 읽을때, index_col 매개변수에 0이라고 하면 첫번째 열이 인덱스로 사용이 되므로, 아래 출력결과를 확인하면 자동으..

강력한 pandas를 이용한 데이터 처리 1

데이터 분석을 위한 필수 패키지는 Pandas, Numpy 그리고 Matplotlib이고, 판다스는 넘파이를 기반이기 때분에 처리속도가 빠르고 행과 열로 구조화된 데이터프레임을 조작하고 데이터 처리와 분석을 위한 다양하면서 강력한 함수를 지원합니다. 판다스는데이터 처리와 분석을 위한 다양한 함수 지원 https://pandas.pydata.org/ pandas - Python Data Analysis Librarypandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install..

728x90