본문 바로가기

Jsoup2

[크롤링] Selenium을 이용한 JAVA 크롤러 (2) - Jsoup과 비교 (With. Twitter) 2020/02/25 - [Back-end/JAVA] - [크롤링] Jsoup을 이용한 JAVA 크롤러 (1) - HTML 파싱 2020/02/25 - [Back-end/JAVA] - [크롤링] Jsoup을 이용한 JAVA 크롤러 (2) - 파일 다운로드 2020/02/27 - [Back-end/JAVA] - [크롤링] Selenium을 이용한 JAVA 크롤러 (1) - HTML 파싱 0. 서론 지난 포스트에서 Selenium을 이용하여 간단하게 웹페이지를 크롤링해보았다. 정적 웹페이지를 크롤링 했기 때문에 결과만 보면 Jsoup과 다를게 없다. 오히려 Selenium의 수집속도가 더 느려서 왜 사용하나 싶을 수 있다. 그래서, 이번에는 동적 웹페이지를 크롤링하여 Jsoup과 어떤 차이가 있는지 비교해보려.. 2020. 2. 28.
[크롤링] Jsoup을 이용한 JAVA 크롤러 (1) - HTML 파싱 0.서론 지금까지 크롤러를 만들때, 주로 Python을 이용해서 만들었다. 왜냐하면, 가장 쉽고 빠르게 만들 수 있기 때문이었다. 그동안 Python에 익숙해져 있다보니 Java로는 만들어 볼 생각을 안하게 되었다. 그러다가, 최근 Java로 메일을 발송하는 기능을 구현해보면서 'Jsoup'이라는 라이브러리를 알게되었다. Jsoup은 HTML을 파싱해주는 JAVA 오픈 소스 라이브러리이다. Python에서 BeautifulSoup과 비슷한 라이브러리이다. 둘에 차이가 있다면, BeautifulSoup은 파싱만 지원하여 별도의 Request 모듈이 필요하지만, Jsoup은 Request와 파싱을 모두 지원한다. Element를 탐색하는 기능은 CSS Selector를 이용하는 select 함수와 Javas.. 2020. 2. 25.