본문 바로가기
카테고리 없음

대용량 데이터 분석을 위한 Elasticsearch

by 지구킹 2021. 7. 14.
728x90

데이터 분석을 위해 선행되어야 하는 과정

[1단계] Raw Data 수집

  • 다양한 데이터 종류 수집 : File, REST API, Socket
  • 대량의 데이터 수집 : 데이터 종류에 따라 초당 수백, 수천의 처리가 필요
  • 실시간 데이터 수집 : 실시간으로 유입되는 데이터의 경우 수집 실패시 데이터 유실 가능성
  • 비정형 데이터 수집 : 다양한 형태의 비정형 데이터를 일관되게 수집하는 것이 필요

 

[2단계] Raw Data 정제 및 저장

  • 비정형 데이터를 구조적 형태로 변환 : 시계열 기준 형식, 코드 기준 형식
  • 데이터 노이즈 제거 : PK, FK 생성, 필수데이터 생성, 데이터 Validation
  • 데이터 저장 : 대량의 데이터 핸들링이 가능해야 함, 기존 데이터와 통합, 필요에 따른 데이터 수정 및 삭제

[3단계] 분석 데이터 제공

  • 데이터 집계
  • 제공 데이터 Interval 조절 : 일간, 월간, 년간 데이터 조회시 데이터 핸들링 / 집계를 통한 대량의 데이터 처리 노하우 필요

[4단계] 데이터 분석

 

데이터 분석을 위한 ElasticStack

1단계 : Beats

2단계 : Logstash

3단계 : Elasticsearch

 

 

728x90

댓글