데이터분석 26

워드 클라우드로 텍스트 분석

1. 워드 클라우드(Word Cloud)란 텍스트 분석에서 가장 많이 등장하는 시각화 기법입니다. 자주 등장하는 단어의 빈도를 크기와 색상으로 표현하는 시각화 기법으로 단어의 빈도수가 높을수록 큰 글씨로 표현되며, 데이터의 주요 키워드를 빠르게 파악할 수 있습니다.워드 클라우드 활용의 예는 아래와 같습니다.뉴스 기사 분석: 특정 시기나 주제의 핵심 단어 파악소셜 미디어 분석: 트위터, 블로그 등에서 자주 언급되는 키워드 시각화고객 리뷰 분석: 제품 리뷰에서 자주 등장하는 단어 확인2. 워드 클라우드를 위한 주요 라이브러리 라이브러리주요기능wordcloud텍스트 데이터를 워드 클라우드 형태로 시각화konlpy한국어 자연어 처리(형태소 분석, 명사 추출 등)re정규 표현식 활용(텍스트 전처리)collecti..

텍스트 마이닝과 워드 클라우드

1. 텍스트 마이닝이란?텍스트 마이닝(Text Mining)은 비정형 텍스트 데이터에서 의미 있는 정보를 추출하는 데이터 분석 기법입니다.  일반적인 데이터 마이닝이 수치 데이터를 분석하는 데 초점을 맞춘다면, 텍스트 마이닝은 자연어 처리(NLP)를 활용하여 문자 기반 데이터를 분석하는 것이 핵심입니다.  텍스트 마이닝은 많은 분야에 활용되고 있습니다.소셜 미디어 분석: 트위터, 인스타그램, 블로그 등의 데이터를 활용한 트렌드 분석고객 리뷰 분석: 제품 리뷰를 분석하여 고객 만족도를 평가감성 분석: 긍정 및 부정 감성을 파악하여 여론 조사나 브랜드 이미지 관리에 활용토픽 모델링: 뉴스 기사나 연구 논문에서 주요 주제를 자동으로 추출의료 및 법률 문서 분석: 대량의 의료 기록이나 법률 문서에서 중요한 정보..

다중선형회귀모형과 해석하기

1. 다중선형회귀모형이란다중선형회귀(multiple linear regression)은  종속(반응)변수에 대하여 2개 이상의 독립(설명)변수가 얼마나 영향을 미치는가를 확인하는 모형입니다.   다중선형회귀에서 반드시 고려해야 되는 사항이 다중공선성(multicollinearity)이다. 다중공선성이란 독립변수들간의 강한 상관관계가 존재하여 회귀 계수의 분산을 크게 하기 때문에 회귀분석시 추정회귀계수를 신뢰할 수 없는 문제가 발생하는 것입니다.즉, 독립변수 A와 독립변수 B는 종속변수에서 각각 독립적으로 영향을 주어야 하는데, 독립변수의 값이 증가함에 따라 독립변수 간의 상호관련성이 높아져 독립변수의 개별적인 영향보다는 독립변수간의 상관관계에 의해 발생되는 영향입니다. 다중공선성을 확인하기 위한 지표는 ..

scikit-learn 패키지를 활용한 단순회귀모형과 중회귀모형

1, 단순선형회귀모형  scikit-learn 패키지에서 학습을 위한 데이터는 (n,c) 형태의 array 데이터 입니다. n은 데이터 개수이고, c는 feature(컬럼)의 개수를 의미합니다. n에 -1로 지정하면 크기를 자동으로 계산하도록 합니다.       예를 들어, x.reshape(-1, 1) 코드는 차원 크기를 자동으로 계산하고, 1은 1차원 배열로 구성된다는 의미 입니다. 선형회귀모형은 scikit-learn패키지의 LinearRegression 클래스를 이용해 모델을 설정할 수 있습니다. LinearRegression() 생성자를 이용하여 새로운 선형회귀모델 객체를 만들고, fit()메소를 이용하여 선형회귀모형을 설정합니다. #데이터 x = [30, 20, 50, 40, 10]y = [1..

회귀분석의 원리와 단순선형회귀모형

1. 회귀분석(regression)은 데이터 간의 선형 인과관계를 분석하고 예측하는 데 사용되는 기법입니다. 설명변수와 반응변수의 관계를 구체적인 함수로 나타내고, 설명변수의 값으로부터 반응변수의 값을 예측하는 일련의 과정입니다. 회귀분석과 관련된 용어반응변수(response variable) : 주된 관심사항으로 예측하려는 연속형 변수설명변수(explanatory variable ) : 반응변수를 예측하는데 사용되는 변수회귀모형(regression model) : 설명변수와 반응변수의 관계를 나타내는 직성식회귀계수(regression coefficient) : 설명변수와 반응변수의 관계정도를 나타내는 수치로서 회귀모형의 절편 및 기울기 2. 단순회귀모형모형  단순회귀모형의 간단한 예를 살펴보면, 광고료..

협업 필터링 추천 시스템(Collaborative Filtering : CF)

1. 협업 필터링 추천 시스템 협업 필터링 추천시스템은 사용자들의 취향 정보를 기반으로 개별 사용자가 선호라 것 같은 아이템을 예측해서 추천해주는 기술입니다. 이는 사용자의 개인정보나 아이템 정보가 없어도 추천할 수 있습니다. 협업필터링은 최근접 이웃(KNN : K-Nearest Neighbor)과 잠재요인(Latent Factor) 방식이 있습니다. 최근접 이웃(KNN)에는 사용자 기반 CF와 아이템 기반 CF로 구분됩니다. 사용자 기반 협업 필터링은 사용자의 구매 패턴과 유사한 사용자를 찾아서 추천해주는 것이고, 아이템 기반 협업 필터링은 사용자들이 부여한 평점들의 분포가 유사하게 나타난 아이텐을 찾아 추천해주는 것입니다.  2. 코사인 유사도(Cosine Similarity)코사인 유사도는 벡터간의..

웹 크롤링을 위한 라이브러리(Selenium) 및 실습

1. 정적 웹페이지와 동적 웹페이지 웹페이지는 크게 정적 웹페이지와 동적 웹페이지로 구분됩니다. 정적페이지란 모든 클라이어트에게 동일한 내용을 보여주는 웹페이지입니다. 사용자가 URL을 통해 서버에 웹 페이지를 요청하였을 때, 서버 안에 이미 만들어져 있는 HTML 문서를 모든 사용자에게 동일한 내용을 보여주는 웹페이지 입니다. 예를 들어 포털에게 뉴스 서비스는 모든 사용자에에 동일한 정보를 보여줍니다. 동적페이지란 웹서버가 사용자(클라이언트)가 URL 을 통해 서버에 웹 페이지를 요청(request)했을 때, 서버는 사용자에 맞는 HTML 문서를 생성하여 사용자에게 응답(response)하게 됩니다. 사용자마다 요청 요구에 따른 서로 다른 정보를 제공합니다. 예를 들어 쇼핑몰의 장바구니, 또는 개인성적..

웹크롤링(Crawling)과 웹스크래핑(Scraping) 이란

1. 데이터의 형태 데이터는 정형데이터, 비정형데이터, 반정형 데이터로 구분됩니다. 정형 데이터(Structured Data)는 정해진 구조에 따라 저장된 구조화된 데이터입니다. 행과 열로 지정된 칸에 데이터를 저장한 형태로서 엑셀의 스프레드 시트 또는 관계 데이터베이스의 테이블이 대표적인 예 입니다. 이름 성별 나이 거주지 직업 요금 데이터사용량 휴대폰선호 서비스 선호도 홍길동 M 30 부산 학생 20000 4GB LG 5 송중기 M 25 경남 학생 30000 3GB 삼성 4 김시민 F 29 서울 교수 45000 2GB 아이폰 3 황주민 F 40 경북 회사원 60000 10GB 삼성 5 반정형 데이터(Semi- Structured Data)는 구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내..

Pipeline(파이프 라인)의 개념과 활용하기

1. 파이프라인 개념 Pipeline은 데이터 전처리에서 학습까지의 여러 과정을 하나로 연결하는 것입니다. 데이터 전 처리 및 분류의 모든 단계를 포함하는 단일 개체를 만들 수 있습니다. 파이프라인을 사용할 때와 사용하지 않았을 때를 코딩해서 비교해서 확인하고자 합니다. 필요한 모듈을 import 하고, iris 데이터 셑을 불러옵니다. from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC from sklearn.metrics import accuracy_score, class..

서포트 벡터 머신(SVM)을 활용한 분류모형

Support Vector Machine(SVM)은 머신러닝 분야에서 가장 인기가 높은 데이터 분류 방법으로 알려져 있다. SVM은 두 데이터 그룹을 나누는 평면 중에서 폭이 가장 넗은 것을 찾는 방법으로 분리평면을 "결정 경계"라고 합니다. 결정경계와 서포트 벡터 사이의 거리를 magrin이라고 하고, Hard margin과 Soft Margin이 있습니다. 하드 마진(Hard margin) : 어떠한 데이터도 마진내에 들어오지 않는데, 엄격하게 지켜져야 하는 마진을 하드마진이라 부름 소프트(Soft margin) : 분리 평면을 찾을 수 있도록 일부 데이터가 마진 내에 들어오도록 허용하는 것 임 아래의 그림은 데이터A와 데이터B는 소프트 마진에 관한 그림입니다. 마진은 점이 닿기 전까지의 선형 분류기..

728x90