BIG-DATA(15)
-
[Elasticsearch] 무작정 시작하기 (1) - 설치 및 실행
이번 포스트에서는 모든 종류의 문서를 검색할 수 있고 실시간에 가까운 검색능력을 가진 ElasticSearch에 대해서 알아볼 것이다. 익히 들어본 넷플릭스나 페이스북에서도 이 검색엔진을 사용한다. 1. Elastcisearch 란? 1-1. 텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 분산형 오픈 소스 검색 및 분석 엔진. 1-2. 간단한 REST API, 분산형 특징, 속도, 확장성으로 유명한 Elasticsearch는 데이터 수집, 보강, 저장, 분석, 시각화를 위한 오픈 소스 도구 모음인 Elastic Stack의 중심 구성 요소. 1-3. 애플리케이션 검색, 웹사이트 검색, 로깅과 로그 분석, 애플리케이션 성능 모니터링, 위치 기반 정보 데이터 분석 및..
2019.12.03 -
[FLUME] 무작정 시작하기 (3) - Kafka Source
2019/11/29 - [BIG-DATA/FLUME] - [FLUME] 무작정 시작하기 (1) - 설치 및 실행 2019/12/02 - [BIG-DATA/FLUME] - [FLUME] 무작정 시작하기 (2) - Channel & Sink 의 분산처리 지난 포스트까지해서 Flume의 Channel과 Sink를 통한 분산처리를 해보았다. 이번 포스트에서는 [KAFKA 무작정 시작하기 ]에서 다루었던 Kafka를 Source로 사용할 계획이다. 로그가 적재되고 있는 Kafka만 준비되어 있다면 쉽게 따라할 수 있을 것이다. 이번 포스트에서는 Flume만 다룰것이기 때문에 로그 수집 및 Kafka에 대한 설정은 다른 포스트를 참고하기 바란다. #[KAFKA] 무작정 시작하기 2019/11/19 - [BIG-DA..
2019.12.03 -
[FLUME] 무작정 시작하기 (2) - Channel & Sink 의 분산처리
2019/11/29 - [BIG-DATA/FLUME] - [FLUME] 무작정 시작하기 (1) - 설치 및 실행 지난 포스트에서 Flume을 설치하고 간단하게 실행까지 해보았다. 이번 포스트에서는 2개의 Channel과 각 Channel당 3개의 Sink를 사용해서 Telnet으로 메시지를 전송했을 때 어떻게 분산처리가 되는지 확인해보도록 하겠다. 1. Flume의 분산처리 흐름. - Source는 Application으로부터 데이터를 수집. - 수집한 데이터를 모든 Channel에 동일하게 저장. - 각 Channel은 저장된 데이터를 여러 Sink에 쪼개어 보냄. - Sink는 받은 데이터를 다른 Application에 데이터를 보내고 다음 작업을 기다림. 2. Flume 설정 및 실행. - 작업폴더..
2019.12.02 -
[FLUME] 무작정 시작하기 (1) - 설치 및 실행
오늘은 Flume에 대해서 알아보도록 하겠다. Flume은 대용량의 로그를 수집하고 비동기로 분산처리할 수 있는 스트리밍 로그 수집기이다. 1.1.0 버전 이후부터 Flume-NG라고 불리면서 좀 더 다루기가 쉬워졌다고 한다. 이번 포스트에서는 1.9.0 버전을 기준으로 진행하려고 한다. 1. Flume이란? 1-1. 대용량의 로그를 수집하고 비동기로 분산처리할 수 있는 스트리밍 로그 수집기. 1-2. 각 Component가 커스터마이징을 커스터마이징 할 수 있기때문에 확장성이 우수함. 1-3. Data Flow. - Source는 로그를 수집하는 역할이며, Avro, Kafka, Syslog 등을 제공. - Channel은 수집한 로그를 담아두는 저장소이며, Kakfa, Memory, File 등을 제..
2019.11.29 -
[LOGSTASH] 무작정 시작하기 (3) - Filebeat To Kafka
2019/11/26 - [BIG-DATA/LOGSTASH] - [LOGSTASH] 무작정 시작하기 (1) - 설치 & 실행 2019/11/26 - [BIG-DATA/LOGSTASH] - [LOGSTASH] 무작정 시작하기 (2) - filter 지난 포스트까지해서 Logstash의 기본적인 사용법을 알아보았다. 이번 포스트에서는 Chrome Debug 로그를 Filebeat으로 수집하고 Logstash로 집계하여 변환하고 Kafka에 적재하는 프로세스를 구현해보도록 하겠다. Filebeat과 Kafka만 잘 셋팅되어 있다면 쉽게 구현할 수 있을 것이다. 이번 포스트에서 Filebeat과 Kafka에 대한 셋팅은 다른 포스트를 참고하길 바란다. #Filebeat 셋팅 2019/11/25 - [BIG-DAT..
2019.11.28 -
[LOGSTASH] 무작정 시작하기 (2) - filter
2019/11/26 - [전체글] - [LOGSTASH] 무작정 시작하기 (1) - 설치 & 실행 지난 포스트에서 Logstash를 설치하고 간단하게 input과 output을 설정하여 실행까지 해보았다. 이번 포스트에서는 분석, 변환 단계인 filter에 대해서 알아보고 자주 사용하는 라이브러리들을 위주로 직접 활용해보도록 하겠다. 아무래도 실제 로그 데이터를 활용하여 진행하는 것이 이해하기가 수월할 것으로 판단되어, Chrome 브라우저의 로그를 file input plugin으로 읽어서 처리하도록 하겠다. 1. filter란? 1-1. input으로 집계한 데이터를 분석하고 변환하는 단계로 Logstash의 핵심. 1-2. grok, ruby, mutate 등 다양한 라이브러리를 지원. 2. Chr..
2019.11.26