전체 글 75

강력한 pandas를 이용한 데이터 처리 1

데이터 분석을 위한 필수 패키지는 Pandas, Numpy 그리고 Matplotlib이고, 판다스는 넘파이를 기반이기 때분에 처리속도가 빠르고 행과 열로 구조화된 데이터프레임을 조작하고 데이터 처리와 분석을 위한 다양하면서 강력한 함수를 지원합니다. 판다스는데이터 처리와 분석을 위한 다양한 함수 지원 https://pandas.pydata.org/ pandas - Python Data Analysis Librarypandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install..

데이터 분석의 시작은 데이터 탐색이다.

수집된 데이터를 분석하기 위해서는 가장 먼저 데이터 탐색부터 시작됩니다. 탐색적 데이터 분석( Exploratory Data Analysis)의 목적 은 다음과 같습니다. 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법 입니다. 이러한 정보를 기초로 통계모형을 세울 수 있습니다. 미지의 특성을 파악하고 자료구조를 파악할 수 있는 과정입니다. 탐색적 데이터 분석은 데이터 분석의 시작입니다. 1. 데이터 척도 데이터 척도는 범주형데이터(카테고리데이터)와 계량형데이터(실수형데이터)로 구분됩니다. 범주형 데이터는 어느 범주에 속하는지 판별하는 데이로 명목척도, 서열척도가 있습니다. 계량형 데이터는 재거나(연속형)나 세는(이산형) 데이터로서 구간 및 비율척도가 있습니다. 데이터 척도를 구분을 잘하..

seoborn 패키지로 멋진 시각화하자

seoborn 패키지는 matplotlib기반하였고 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지, maptplotlib보다 높은 수준의 인터페이스를 제공하여 사용자들이 쉽게 데이터를 분석하고 시각화할 수 있습니다. seobor 라이브러리는 matplotlib기반이고 고급스러운 시각화를 쉽게 그릴 수 있음 http://seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.12.2 documentation seaborn: statistical data visualization seaborn.pydata.org seoborn은 다양한 dataset이 제공되는데 어떤 데이터셑이 있는지 확인하고, tips데이터 셑을 ..

두 변수 간의 관련성에 대한 이야기

상관계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 통계적 측도입니다(로 기호화). 상관계수(r)는 -1에서 1사이의 값을 가지며, 1일 경우 완전한 양(+)의 상관관계, -1일 경우 완전한 음(-)의 상관관계를 가진다고 할 수 있습니다. 0에 가까우면 두변수 간의 선형관계는 약하다고 볼 수 있습니다. 두변수의 관련성은 상관계수와 산점도로 확인 1. 상관계수 구하기 사용데이터는 iris(붓꽃) 데이터를 활용합니다. iris데이터에 대한 설명을 보려면 여기를 클릭하고 2. 붓꽃테이터 이해하기를 보시면 됩니다. #데이터를 불러오고, DESCR속성을 이용하여 데이터의 상세정보를 확인 from sklearn.datasets import load_iris iris = load_iris() p..

데이타 시각화를 위한 도구 matplotlib

데이터 시각화를 위한 파이썬 패키지는 matplotlib이고 그 하위 모듈 중 pyplot 이라나는 서브모듈 pyplot 모듈을 주로 사용합니다. 이 서브 모듈은 시각화를 위한 핵심적인 함수와 클래스들이 정의되어 있습니다. matplotlib패키지는 데이터 시각화 도구 이다. https://matplotlib.org/2.0.2/api/pyplot_api.html pyplot — Matplotlib 2.0.2 documentation Parameters:X : array_like, shape (n, m) or (n, m, 3) or (n, m, 4) Display the image in X to current axes. X may be an array or a PIL image. If X is an arr..

데이터로 보는 고령자 디지털 격차

디지털 격차는 인간의 권리에 대한 여러 가지 문제점이 있습니다. 특히, 고령자의 디지털 격차는 사회문제이고, 그에 따른 정책 방안이 필요합니다. 우리나라는 2023년 9월 약 950만 인구의 18.6%가 고령자 비율이고 고령화 속도가 가팔라서 2025년에는 고령자 비율이 20%인 초고령사회로 접어들게 됩니다. 부산과 전국의 고령자 비율을 살펴보면, 2023년 8월 현재 비교하면 전국 18.6%, 부산 22.2%로 전국에 비해 상당히 높은 편이고 초고령사회로 접어들었습니다. 심각한 고령사회는 많은 문제가 발생되고, 4차 산업 또는 인공지능 등 현재 디지털 의존성이 높아짐에 따라 디지털 활용 능력 등 디지털 격차로 인해 발생되는 문제가 많습니다. 따라서 디지털 격차에 따는 문제를 데이터로 확인하고 문제를 해..

데이터이야기 2023.09.25

파이썬 또는 데이터 분석을 위한 coblab 이해하기

Colaboratory(줄여서 'Colab'이라고 함)을 통해 브라우저 내(클라우드)에서 Python 스크립트를 작성하고 실행할 수 있는 환경입니다. colab은 클라우드 기반으로 주피터 노트북 개발환경 Colab이란 ? Colab은 Colaboratory의 줄임말로 일반적으로 코랩이라고 합니다. 구글에서 제공되는 것으로 브라우저 내(클라우드)에서 Python 스크립트를 작성하고 실행할 수 있습니다. Colab은 무료 Jupyter notebook 개발환경입니다. 무료 GPU를 지원하므로 빅데이터, 학습데이터가 클 경우에는 GPU를 사용하는 것을 추천합니다. Colab의 특징 파이썬을 설치할 필요가 없습니다. Tensor Flow, mataplotlib, scikit-learn, pandas, numpy..

numpy 패키지를 활용한 난수 생성

데이터를 처리하거나 인공지능에서 모델을 추정하기 위해 난수를 발생하는 경우가 많습니다. 이번에는 난수를 생성하는 메소드와 활용방법에 대해 알아보도록 하겠습니다. 난수란 정의된 범위내에서 무작위로 추출된 수 1. numpy패키지 소개 numpy는 파이썬에서 선형 대수(linear algebra) 계산 및 통계기능을 제공합니다. 다차원 배열 클래스(n-dimensional array)와 벡터화 연산(vectorized operation)을 지원합니다. numpy 패키중에 random모듈은 난수를 생성해주는 다양한 함수가 제공 됩니다. 난수생성 주요 함수는 표와 같습니다. 함수명 설명 예 random.rand() 0~1사이 실수형 데이터 난수 생성 np.random.rand(5) : 5개의 난수가 발생 ran..

기술분석을 위해 필요한 주요 패키지

많은 데이터를 정리요약 즉 기술통계 분석을 위해 필요한 패키지가 있습니다. 주요 패키지에 대해 설명하고자 합니다. 주요 패키지 설명 1. numpy 패키지 NumPy(“넘파이”) 패키지는 파이썬에서 선형 대수(linear algebra) 계산 및 통계기능을 제공합니다. 다차원 배열 클래스(n-dimensional array)와 벡터화 연산(vectorized operation)을 지원하며 연산속도를 높여줍니다. 2. pandas 패키지 Pandas(“판다스”) 패키지는 테이블형태와 같은 데이터프레임(DataFrame) 자료형을 제공합니다. 자료의 탐색이나 기술통계를 계산할 때 유용합니다. R 언어에서 제공하는 데이터프레임 자료형을 파이썬에서 제공할 수 있도록 하는 목적이었으나 더 다양한 기능이 추가되었습..

우리사회를 바꾸는 인공지능

현재 인공지능은 우리사회에 중요한 역할을 수행하고 있고, 다양한 분야에서 인공지능 기술이 적용되고 있습니다.사회, 경제, 문화, 의료 등 다양한 분야에서 변화를 가져오고 있어, 인공지능에 대한 개념을 정리하고자 합니다.  인공지능 이란? 인공지능 기술 인공지능은 인간이 사고와 연관시키는 인지(Cognition)기능을 모방하는 기계 및 컴퓨터 입니다.머신러닝은 딥러닝을 포함하는 상위개념으로 데이터를 통해 스스로 학습하고, 패턴을 인식하는 인공지능의 하위분야 입니다. 머신러닝에는 지도학습, 비지도학습, 강화학습(Reinforcement Learning), 자기지도학습(Self-Supervised Learning) 등이 있습니다.딥러닝은 인공신경망을 사용하여 복잡한 패턴 인식 및 학습 작업을 수행하는 머신러닝..

728x90