본문 바로가기

scrapy7

[크롤링] 무작정 시작하기 (3) - Spider 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 이전 포스트에서 전반적인 프로젝트 준비를 진행하였다. 이번 포스트에서는 Spider를 구현하여 네이버 뉴스의 목록을 수집하는 것을 진행할 것이다. 크롤링은 접속한 페이지에서 접근 가능한 데이터는 무엇이든지 수집할 수 있다. 따라서, 저작권에 위배되는 행위를 하게될 수도 있다. 이를 예방하는 차원에서 웹사이트에는 크롤러가 접근할 수 있는 페이지를 정의한 [robots.txt]를 제공하고있다. 이는 단순히 안내문 정도로 생각하면 쉽다. 시작하기에 앞서 [ robots.txt ]를 간략하게 확.. 2019. 11. 19.
[크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 이번에는 이전 포스트에 이어서 이번 포스트에서는 프로젝트 셋팅을 하도록하겠다. 크롤링할 대상은 '네이버 뉴스'로 하였으며, 수집한 데이터는 상업적인 목적으로 이용할 의도가 없음을 알려드립니다. 1. 가상환경생성 1-1. python에서 프로젝트를 새로 생성하면 가장 먼저해야하는 일은 바로 가상환경을 생성. 1 2 3 4 5 6 7 8 9 10 $ pip install virtualenv # virtualenv 패키지 설치 $ virtualenv --version # 설치 확인 16.7.7 $ virtualenv .venv # 가상환경 생성 $ source .venv/bin/activate # 가상.. 2019. 11. 19.
[크롤링] 무작정 시작하기 (1) - 패키지 선택 웹에는 방대한 양의 데이터들이 존재한다. 원하는 정보를 얻기위해 하나하나 검색해가며 데이터를 수집하는 것은 비효율적인 일이다. 이 때, 우리에게 필요한 것이 바로 '웹 크롤러(Web Crawler)'이다. 웹 크롤러(이하 크롤러)는 웹에서 특정 데이터들을 수집하는 일을 자동화한 프로그램이며, web-scraping, spidering이라고도 불리운다. 크롤러는 크게 수집(Scrapping)과 가공(Parsing) 두개의 단계로 구분되어진다. 수집(Scrapping)은 웹페이지의 HTML 소스를 긁어오는 것으로 urllib, requests, selenium 등의 라이브러리가 사용된다. 1. urllib python 기본 라이브러리이며 request를 작성하는 방식이 사용자 친화적이지 않아서 불편하지만, .. 2019. 11. 19.