본문 바로가기

Spider4

[크롤링] 무작정 시작하기 (6) - 파일 다운로드 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (3) - Spider 2019/11/20 - [Back-end/Python] - [크롤링] 무작정 시작하기 (4) - Selenium + Scrapy 2019/11/21 - [Back-end/Python] - [크롤링] 무작정 시작하기 (5) - Item 이번 포스트에서는 파일을 다운로드하는 Spider를 생성하여 볼 것이다. 파일을 허락없이 다운받아서 사용하는 것은 위법의 소지가 있으므로 현재 블로그.. 2019. 11. 24.
[크롤링] 무작정 시작하기 (4) - Selenium + Scrapy 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (3) - Spider 지난 포스트에서 네이버 뉴스를 크롤링하는 Spider를 작성해보았다. 이번 포스트에서는 Rueqest를 던질때 Selenium을 사용하도록 Middleware를 생성할할 것이다. 네이버 뉴스가 동적 웹페이지가 아니라서 크게 차이를 느끼기는 어렵지만 Middleware로 만들어 두는 것이기 때문에 필요에 따라서 사용하면 된다. 이번 포스트는 갑자기 난이도가 올라갈 수 있으니 차분히 .. 2019. 11. 20.
[크롤링] 무작정 시작하기 (3) - Spider 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 이전 포스트에서 전반적인 프로젝트 준비를 진행하였다. 이번 포스트에서는 Spider를 구현하여 네이버 뉴스의 목록을 수집하는 것을 진행할 것이다. 크롤링은 접속한 페이지에서 접근 가능한 데이터는 무엇이든지 수집할 수 있다. 따라서, 저작권에 위배되는 행위를 하게될 수도 있다. 이를 예방하는 차원에서 웹사이트에는 크롤러가 접근할 수 있는 페이지를 정의한 [robots.txt]를 제공하고있다. 이는 단순히 안내문 정도로 생각하면 쉽다. 시작하기에 앞서 [ robots.txt ]를 간략하게 확.. 2019. 11. 19.
[크롤링] 무작정 시작하기 (1) - 패키지 선택 웹에는 방대한 양의 데이터들이 존재한다. 원하는 정보를 얻기위해 하나하나 검색해가며 데이터를 수집하는 것은 비효율적인 일이다. 이 때, 우리에게 필요한 것이 바로 '웹 크롤러(Web Crawler)'이다. 웹 크롤러(이하 크롤러)는 웹에서 특정 데이터들을 수집하는 일을 자동화한 프로그램이며, web-scraping, spidering이라고도 불리운다. 크롤러는 크게 수집(Scrapping)과 가공(Parsing) 두개의 단계로 구분되어진다. 수집(Scrapping)은 웹페이지의 HTML 소스를 긁어오는 것으로 urllib, requests, selenium 등의 라이브러리가 사용된다. 1. urllib python 기본 라이브러리이며 request를 작성하는 방식이 사용자 친화적이지 않아서 불편하지만, .. 2019. 11. 19.