본문 바로가기

selenium9

[크롤링] 무작정 시작하기 (1) - 패키지 선택 웹에는 방대한 양의 데이터들이 존재한다. 원하는 정보를 얻기위해 하나하나 검색해가며 데이터를 수집하는 것은 비효율적인 일이다. 이 때, 우리에게 필요한 것이 바로 '웹 크롤러(Web Crawler)'이다. 웹 크롤러(이하 크롤러)는 웹에서 특정 데이터들을 수집하는 일을 자동화한 프로그램이며, web-scraping, spidering이라고도 불리운다. 크롤러는 크게 수집(Scrapping)과 가공(Parsing) 두개의 단계로 구분되어진다. 수집(Scrapping)은 웹페이지의 HTML 소스를 긁어오는 것으로 urllib, requests, selenium 등의 라이브러리가 사용된다. 1. urllib python 기본 라이브러리이며 request를 작성하는 방식이 사용자 친화적이지 않아서 불편하지만, .. 2019. 11. 19.

이전 1 2 3 다음

티스토리툴바