File3 [FLUME] 무작정 시작하기 (2) - Channel & Sink 의 분산처리 2019/11/29 - [BIG-DATA/FLUME] - [FLUME] 무작정 시작하기 (1) - 설치 및 실행 지난 포스트에서 Flume을 설치하고 간단하게 실행까지 해보았다. 이번 포스트에서는 2개의 Channel과 각 Channel당 3개의 Sink를 사용해서 Telnet으로 메시지를 전송했을 때 어떻게 분산처리가 되는지 확인해보도록 하겠다. 1. Flume의 분산처리 흐름. - Source는 Application으로부터 데이터를 수집. - 수집한 데이터를 모든 Channel에 동일하게 저장. - 각 Channel은 저장된 데이터를 여러 Sink에 쪼개어 보냄. - Sink는 받은 데이터를 다른 Application에 데이터를 보내고 다음 작업을 기다림. 2. Flume 설정 및 실행. - 작업폴더.. 2019. 12. 2. [LOGSTASH] 무작정 시작하기 (2) - filter 2019/11/26 - [전체글] - [LOGSTASH] 무작정 시작하기 (1) - 설치 & 실행 지난 포스트에서 Logstash를 설치하고 간단하게 input과 output을 설정하여 실행까지 해보았다. 이번 포스트에서는 분석, 변환 단계인 filter에 대해서 알아보고 자주 사용하는 라이브러리들을 위주로 직접 활용해보도록 하겠다. 아무래도 실제 로그 데이터를 활용하여 진행하는 것이 이해하기가 수월할 것으로 판단되어, Chrome 브라우저의 로그를 file input plugin으로 읽어서 처리하도록 하겠다. 1. filter란? 1-1. input으로 집계한 데이터를 분석하고 변환하는 단계로 Logstash의 핵심. 1-2. grok, ruby, mutate 등 다양한 라이브러리를 지원. 2. Chr.. 2019. 11. 26. [크롤링] 무작정 시작하기 (6) - 파일 다운로드 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (1) - 패키지 선택 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (2) - 프로젝트 준비 2019/11/19 - [Back-end/Python] - [크롤링] 무작정 시작하기 (3) - Spider 2019/11/20 - [Back-end/Python] - [크롤링] 무작정 시작하기 (4) - Selenium + Scrapy 2019/11/21 - [Back-end/Python] - [크롤링] 무작정 시작하기 (5) - Item 이번 포스트에서는 파일을 다운로드하는 Spider를 생성하여 볼 것이다. 파일을 허락없이 다운받아서 사용하는 것은 위법의 소지가 있으므로 현재 블로그.. 2019. 11. 24. 이전 1 다음