본문 바로가기

Python31

[크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 이번에는 이전 포스트에 이어서 이번 포스트에서는 프로젝트 셋팅을 하도록하겠다. 크롤링할 대상은 '네이버 뉴스'로 하였으며, 수집한 데이터는 상업적인 목적으로 이용할 의도가 없음을 알려드립니다. 1. 가상환경생성 1-1. python에서 프로젝트를 새로 생성하면 가장 먼저해야하는 일은 바로 가상환경을 생성. 1 2 3 4 5 6 7 8 9 10 $ pip install virtualenv # virtualenv 패키지 설치 $ virtualenv --version # 설치 확인 16.7.7 $ virtualenv .venv # 가상환경 생성 $ source .venv/bin/activate # 가상.. 2019. 11. 19.
[크롤링] 무작정 시작하기 (1) - 패키지 선택 웹에는 방대한 양의 데이터들이 존재한다. 원하는 정보를 얻기위해 하나하나 검색해가며 데이터를 수집하는 것은 비효율적인 일이다. 이 때, 우리에게 필요한 것이 바로 '웹 크롤러(Web Crawler)'이다. 웹 크롤러(이하 크롤러)는 웹에서 특정 데이터들을 수집하는 일을 자동화한 프로그램이며, web-scraping, spidering이라고도 불리운다. 크롤러는 크게 수집(Scrapping)과 가공(Parsing) 두개의 단계로 구분되어진다. 수집(Scrapping)은 웹페이지의 HTML 소스를 긁어오는 것으로 urllib, requests, selenium 등의 라이브러리가 사용된다. 1. urllib python 기본 라이브러리이며 request를 작성하는 방식이 사용자 친화적이지 않아서 불편하지만, .. 2019. 11. 19.
[개발환경] 가상환경 virtualenv 가상환경을 사용하는 목적은 프로젝트 관리의 용이성 때문이다. 간단한 예를 들어 설명해보자, 크롤러를 만들기 위해서 selenium, scrapy, requests, bs4 등 다양한 패키지 설치를 하였고, 이후에 웹 어플리케이션을 만들기위해 Flask를 설치했다. 이제 Flask로 만든 웹 어플리케이션을 배포하기 위해 [ pip freeze > requirements.txt ]명령을 실행하게 되면 어떻게될까? 웹 어플리케이션은 Flask 패키지 한개만 필요한데 이전에 크롤러를 만들면서 설치한 패키지들까지 포함되면서 불필요한 패키지들이 포함되는걸 볼 수 있다. 그래서 프로젝트별로 개발환경을 구축하기위해 가상환경에 Python을 생성하여 해당 프로젝트에 필요한 패키지들만 관리하는 것이다. 1. 설치 1 2 .. 2019. 11. 19.