본문 바로가기

Crawling11

[크롤링] Selenium으로 특가 상품 수집 (3) - 데이터 분석 및 수집 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (2) - Selenium 설정 지난 포스트에서 Selenium을 Browser 없이 실행시키고 로그도 출력되지 않도록 설정해보았다. 그러면서, 수집 대상의 전체 페이지 소스를 출력만 해보았는데, 이번에는 원하는 특정 요소(HTML태그, Elements)를 찾아서 그 안에 있는 데이터를 수집하는 방법에 대해서 알아보도록 하겠다. 1. 수집 대상 분석. 1-1. 수집 대상은 11번가 쇼킹딜의 상품 목록. 1-2. Chrome 브라우저를 통해 수집 대상 사이트 접속. - ht.. 2020. 1. 31.
[크롤링] Selenium으로 특가 상품 수집 (2) - Selenium 설정 2020/01/31 - [Back-end/Python] - [크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 지난 포스트에서 프로젝트 구성과 수집할 대상을 선정해보았다. Selenium을 Crawler로 사용하기로 하였는데, 사실 Selenium은 웹 어플리케이션을 테스트하기 위한 자동화 도구이지 크롤링을 위한 도구가 아니다. 그래서, Crawler로 사용하려면 필수는 아니지만 Selenium WebDriver에 몇가지 옵션을 설정해주는 것이 좋다. 이번 포스트에서는 Selenium을 설치하고 이 옵션을 설정하는 방법에 대해서 알아보도록 하겠다. 1. Selenium 설치 및 실행. 1-1. Selenium 설치. > pip install selenium 1-2. 소스 작성. - c.. 2020. 1. 31.
[크롤링] Selenium으로 특가 상품 수집 (1) - 프로젝트 준비 Selenium은 자동화 툴이지만 크롤링에 이용하는 이유는 아무래도 무한 스크롤이나 클라이언트 사이드 렌더링(React, Vue 등)을 사용하는 동적 웹사이트 때문이기도 하지만, XPATH가 지원된다는 것도 한 몫 한다고 생각한다. 왜냐하면, 다른 포스트에서 살짝 다룬적이 있었는데 CSS Selector로 할 수 없는 편리한 기능들을 많이 지원하기 때문이다. 실제 웹을 실행하는 환경과 동일하기 때문에 페이지를 한번 요청하는데 다른 모듈에 비해 시간이 많이 걸리는 편이지만 실시간으로 데이터를 수집해야 하는 경우가 아니라면 Selenium을 사용하는 것이 편하다. Scrapy로 크롤러를 만들 때 Middleware로 사용하긴 했었지만 단독으로 사용한 적은 없었다. 그래서 이번 포스트에서는 Selenium만을.. 2020. 1. 31.
[크롤링] 직방에서 방찾기 (2) - Crawler 2020/01/21 - [Back-end/Python] - [크롤링] 직방에서 방찾기 (1) - 데이터 분석 지난 포스트에서 직방에서 방정보를 수집하기위한 API서버의 URL정보들을 수집했다. API서버에서 바로 데이터를 받아오는 방식으로 크롤러를 만들것이기 때문에 BS4와 같은 별도의 Parser는 사용하지 않을 것이며 Reuqests 라이브러리 하나로 간단하게 만들어 볼 것이다. 1. 라이브러리 설치. 1-1. requests 라이브러리 설치. > pip install requests 2. 매물목록 데이터 확인. 2-1. 데이터 확인용 크롤러 생성. - crawl_zigbang.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 # crawl_zigbang.py im.. 2020. 1. 21.