본문 바로가기

Python31

[크롤링] Selenium으로 특가 상품 수집 (4) - 모듈화 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (2) - Selenium 설정 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (3) - 데이터 분석 및 수집 지난 포스트에서 11번가에서 특가상품을 수집하는 크롤러를 만들어보았다. 지금은 11번가의 특가상품 하나만 수집하지만 앞으로 티몬, 위메프 등 수집대상을 늘려나갈 것이다. 그런데, 지금처럼 하나의 파이썬 파일에 크롤러를 작성해두면 소스를 관리하기도 어렵고 재사용하기도 어려워진다. 그래서, 이번 포스트에서는 .. 2020. 2. 2.
[크롤링] Selenium으로 특가 상품 수집 (3) - 데이터 분석 및 수집 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (2) - Selenium 설정 지난 포스트에서 Selenium을 Browser 없이 실행시키고 로그도 출력되지 않도록 설정해보았다. 그러면서, 수집 대상의 전체 페이지 소스를 출력만 해보았는데, 이번에는 원하는 특정 요소(HTML태그, Elements)를 찾아서 그 안에 있는 데이터를 수집하는 방법에 대해서 알아보도록 하겠다. 1. 수집 대상 분석. 1-1. 수집 대상은 11번가 쇼킹딜의 상품 목록. 1-2. Chrome 브라우저를 통해 수집 대상 사이트 접속. - ht.. 2020. 1. 31.
[크롤링] Selenium으로 특가 상품 수집 (2) - Selenium 설정 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 지난 포스트에서 프로젝트 구성과 수집할 대상을 선정해보았다. Selenium을 Crawler로 사용하기로 하였는데, 사실 Selenium은 웹 어플리케이션을 테스트하기 위한 자동화 도구이지 크롤링을 위한 도구가 아니다. 그래서, Crawler로 사용하려면 필수는 아니지만 Selenium WebDriver에 몇가지 옵션을 설정해주는 것이 좋다. 이번 포스트에서는 Selenium을 설치하고 이 옵션을 설정하는 방법에 대해서 알아보도록 하겠다. 1. Selenium 설치 및 실행. 1-1. Selenium 설치. > pip install selenium 1-2. 소스 작성. - c.. 2020. 1. 31.
[크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 Selenium은 자동화 툴이지만 크롤링에 이용하는 이유는 아무래도 무한 스크롤이나 클라이언트 사이드 렌더링(React, Vue 등)을 사용하는 동적 웹사이트 때문이기도 하지만, XPATH가 지원된다는 것도 한 몫 한다고 생각한다. 왜냐하면, 다른 포스트에서 살짝 다룬적이 있었는데 CSS Selector로 할 수 없는 편리한 기능들을 많이 지원하기 때문이다. 실제 웹을 실행하는 환경과 동일하기 때문에 페이지를 한번 요청하는데 다른 모듈에 비해 시간이 많이 걸리는 편이지만 실시간으로 데이터를 수집해야 하는 경우가 아니라면 Selenium을 사용하는 것이 편하다. Scrapy로 크롤러를 만들 때 Middleware로 사용하긴 했었지만 단독으로 사용한 적은 없었다. 그래서 이번 포스트에서는 Selenium만을.. 2020. 1. 31.