본문 바로가기

Crawl3

[크롤링] 직방에서 방찾기 (2) - Crawler 2020/01/21 - [Back-end/Python] - [크롤링] 직방에서 방찾기 (1) - 데이터 분석 지난 포스트에서 직방에서 방정보를 수집하기위한 API서버의 URL정보들을 수집했다. API서버에서 바로 데이터를 받아오는 방식으로 크롤러를 만들것이기 때문에 BS4와 같은 별도의 Parser는 사용하지 않을 것이며 Reuqests 라이브러리 하나로 간단하게 만들어 볼 것이다. 1. 라이브러리 설치. 1-1. requests 라이브러리 설치. > pip install requests 2. 매물목록 데이터 확인. 2-1. 데이터 확인용 크롤러 생성. - crawl_zigbang.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 # crawl_zigbang.py im.. 2020. 1. 21.

[크롤링] 직방에서 방찾기 (1) - 데이터 분석 최근 청년전세자금 대출을 이용하여 독립을 해보려고 원룸을 알아보고 있었는데, 대출로 계약할 수 있는 방이 한정적이었다. 검색이라도 할 수 있으면 괜찮은데 검색도 할 수 없어서 직접 대출이 가능한 방을 크롤링하여 수집하기로 하였다. 지난 [크롤링] 무작정시작하기 포스트에서는 html 태그를 분석하고 태그에서 원하는 데이터를 추출하는 방법으로 크롤링을 하였는데, 이번에는 API서버에 데이터를 요청하는 URL을 이용하여 데이터를 크롤링하는 방법을 알아보도록 하겠다. 이번 크롤러는 코딩보다는 수집할 데이터를 어디서 어떻게 가져올 것인가 분석하는데 더 많은 노력이 필요하다. 크롤러를 만들면서 데이터를 수집할 이런 저런 방법들을 찾아봤는데 지하철역을 기준으로 검색하는 것이 가장 편했기 때문에 이를 기준으로 포스트를.. 2020. 1. 21.

[크롤링] 무작정 시작하기 (1) - 패키지 선택 웹에는 방대한 양의 데이터들이 존재한다. 원하는 정보를 얻기위해 하나하나 검색해가며 데이터를 수집하는 것은 비효율적인 일이다. 이 때, 우리에게 필요한 것이 바로 '웹 크롤러(Web Crawler)'이다. 웹 크롤러(이하 크롤러)는 웹에서 특정 데이터들을 수집하는 일을 자동화한 프로그램이며, web-scraping, spidering이라고도 불리운다. 크롤러는 크게 수집(Scrapping)과 가공(Parsing) 두개의 단계로 구분되어진다. 수집(Scrapping)은 웹페이지의 HTML 소스를 긁어오는 것으로 urllib, requests, selenium 등의 라이브러리가 사용된다. 1. urllib python 기본 라이브러리이며 request를 작성하는 방식이 사용자 친화적이지 않아서 불편하지만, .. 2019. 11. 19.

이전 1 다음

티스토리툴바