데이터분석/데이터 추출 2

웹 크롤링을 위한 라이브러리(Selenium) 및 실습

1. 정적 웹페이지와 동적 웹페이지 웹페이지는 크게 정적 웹페이지와 동적 웹페이지로 구분됩니다. 정적페이지란 모든 클라이어트에게 동일한 내용을 보여주는 웹페이지입니다. 사용자가 URL을 통해 서버에 웹 페이지를 요청하였을 때, 서버 안에 이미 만들어져 있는 HTML 문서를 모든 사용자에게 동일한 내용을 보여주는 웹페이지 입니다. 예를 들어 포털에게 뉴스 서비스는 모든 사용자에에 동일한 정보를 보여줍니다. 동적페이지란 웹서버가 사용자(클라이언트)가 URL 을 통해 서버에 웹 페이지를 요청(request)했을 때, 서버는 사용자에 맞는 HTML 문서를 생성하여 사용자에게 응답(response)하게 됩니다. 사용자마다 요청 요구에 따른 서로 다른 정보를 제공합니다. 예를 들어 쇼핑몰의 장바구니, 또는 개인성적..

웹크롤링(Crawling)과 웹스크래핑(Scraping) 이란

1. 데이터의 형태 데이터는 정형데이터, 비정형데이터, 반정형 데이터로 구분됩니다. 정형 데이터(Structured Data)는 정해진 구조에 따라 저장된 구조화된 데이터입니다. 행과 열로 지정된 칸에 데이터를 저장한 형태로서 엑셀의 스프레드 시트 또는 관계 데이터베이스의 테이블이 대표적인 예 입니다. 이름 성별 나이 거주지 직업 요금 데이터사용량 휴대폰선호 서비스 선호도 홍길동 M 30 부산 학생 20000 4GB LG 5 송중기 M 25 경남 학생 30000 3GB 삼성 4 김시민 F 29 서울 교수 45000 2GB 아이폰 3 황주민 F 40 경북 회사원 60000 10GB 삼성 5 반정형 데이터(Semi- Structured Data)는 구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내..

728x90