본문 바로가기

Crawling11

[크롤링] 직방에서 방찾기 (1) - 데이터 분석 최근 청년전세자금 대출을 이용하여 독립을 해보려고 원룸을 알아보고 있었는데, 대출로 계약할 수 있는 방이 한정적이었다. 검색이라도 할 수 있으면 괜찮은데 검색도 할 수 없어서 직접 대출이 가능한 방을 크롤링하여 수집하기로 하였다. 지난 [크롤링] 무작정시작하기 포스트에서는 html 태그를 분석하고 태그에서 원하는 데이터를 추출하는 방법으로 크롤링을 하였는데, 이번에는 API서버에 데이터를 요청하는 URL을 이용하여 데이터를 크롤링하는 방법을 알아보도록 하겠다. 이번 크롤러는 코딩보다는 수집할 데이터를 어디서 어떻게 가져올 것인가 분석하는데 더 많은 노력이 필요하다. 크롤러를 만들면서 데이터를 수집할 이런 저런 방법들을 찾아봤는데 지하철역을 기준으로 검색하는 것이 가장 편했기 때문에 이를 기준으로 포스트를.. 2020. 1. 21.
[크롤링] 무작정 시작하기 (6) - 파일 다운로드 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (3) - Spider 2019/11/20 - [Back-end/Python] - [크롤링] 무작정 시작하기 (4) - Selenium + Scrapy 2019/11/21 - [Back-end/Python] - [크롤링] 무작정 시작하기 (5) - Item 이번 포스트에서는 파일을 다운로드하는 Spider를 생성하여 볼 것이다. 파일을 허락없이 다운받아서 사용하는 것은 위법의 소지가 있으므로 현재 블로그.. 2019. 11. 24.
[크롤링] 무작정 시작하기 (3) - Spider 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 이전 포스트에서 전반적인 프로젝트 준비를 진행하였다. 이번 포스트에서는 Spider를 구현하여 네이버 뉴스의 목록을 수집하는 것을 진행할 것이다. 크롤링은 접속한 페이지에서 접근 가능한 데이터는 무엇이든지 수집할 수 있다. 따라서, 저작권에 위배되는 행위를 하게될 수도 있다. 이를 예방하는 차원에서 웹사이트에는 크롤러가 접근할 수 있는 페이지를 정의한 [robots.txt]를 제공하고있다. 이는 단순히 안내문 정도로 생각하면 쉽다. 시작하기에 앞서 [ robots.txt ]를 간략하게 확.. 2019. 11. 19.