본문 바로가기

selenium9

[크롤링] Selenium으로 특가 상품 수집 (2) - Selenium 설정 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 지난 포스트에서 프로젝트 구성과 수집할 대상을 선정해보았다. Selenium을 Crawler로 사용하기로 하였는데, 사실 Selenium은 웹 어플리케이션을 테스트하기 위한 자동화 도구이지 크롤링을 위한 도구가 아니다. 그래서, Crawler로 사용하려면 필수는 아니지만 Selenium WebDriver에 몇가지 옵션을 설정해주는 것이 좋다. 이번 포스트에서는 Selenium을 설치하고 이 옵션을 설정하는 방법에 대해서 알아보도록 하겠다. 1. Selenium 설치 및 실행. 1-1. Selenium 설치. > pip install selenium 1-2. 소스 작성. - c.. 2020. 1. 31.
[크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 Selenium은 자동화 툴이지만 크롤링에 이용하는 이유는 아무래도 무한 스크롤이나 클라이언트 사이드 렌더링(React, Vue 등)을 사용하는 동적 웹사이트 때문이기도 하지만, XPATH가 지원된다는 것도 한 몫 한다고 생각한다. 왜냐하면, 다른 포스트에서 살짝 다룬적이 있었는데 CSS Selector로 할 수 없는 편리한 기능들을 많이 지원하기 때문이다. 실제 웹을 실행하는 환경과 동일하기 때문에 페이지를 한번 요청하는데 다른 모듈에 비해 시간이 많이 걸리는 편이지만 실시간으로 데이터를 수집해야 하는 경우가 아니라면 Selenium을 사용하는 것이 편하다. Scrapy로 크롤러를 만들 때 Middleware로 사용하긴 했었지만 단독으로 사용한 적은 없었다. 그래서 이번 포스트에서는 Selenium만을.. 2020. 1. 31.
[크롤링] 무작정 시작하기 (4) - Selenium + Scrapy 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (3) - Spider 지난 포스트에서 네이버 뉴스를 크롤링하는 Spider를 작성해보았다. 이번 포스트에서는 Rueqest를 던질때 Selenium을 사용하도록 Middleware를 생성할할 것이다. 네이버 뉴스가 동적 웹페이지가 아니라서 크게 차이를 느끼기는 어렵지만 Middleware로 만들어 두는 것이기 때문에 필요에 따라서 사용하면 된다. 이번 포스트는 갑자기 난이도가 올라갈 수 있으니 차분히 .. 2019. 11. 20.
[크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 이번에는 이전 포스트에 이어서 이번 포스트에서는 프로젝트 셋팅을 하도록하겠다. 크롤링할 대상은 '네이버 뉴스'로 하였으며, 수집한 데이터는 상업적인 목적으로 이용할 의도가 없음을 알려드립니다. 1. 가상환경생성 1-1. python에서 프로젝트를 새로 생성하면 가장 먼저해야하는 일은 바로 가상환경을 생성. 1 2 3 4 5 6 7 8 9 10 $ pip install virtualenv # virtualenv 패키지 설치 $ virtualenv --version # 설치 확인 16.7.7 $ virtualenv .venv # 가상환경 생성 $ source .venv/bin/activate # 가상.. 2019. 11. 19.