728x90 전체 글74 대용량 데이터 분석을 위한 Elasticsearch 데이터 분석을 위해 선행되어야 하는 과정 [1단계] Raw Data 수집 다양한 데이터 종류 수집 : File, REST API, Socket 대량의 데이터 수집 : 데이터 종류에 따라 초당 수백, 수천의 처리가 필요 실시간 데이터 수집 : 실시간으로 유입되는 데이터의 경우 수집 실패시 데이터 유실 가능성 비정형 데이터 수집 : 다양한 형태의 비정형 데이터를 일관되게 수집하는 것이 필요 [2단계] Raw Data 정제 및 저장 비정형 데이터를 구조적 형태로 변환 : 시계열 기준 형식, 코드 기준 형식 데이터 노이즈 제거 : PK, FK 생성, 필수데이터 생성, 데이터 Validation 데이터 저장 : 대량의 데이터 핸들링이 가능해야 함, 기존 데이터와 통합, 필요에 따른 데이터 수정 및 삭제 [3단계].. 2021. 7. 14. 스타트업에서 적용하는 Data Team 본 글은 크롱 - 린하게 구축하는 스타트업 데이터 파이프 라인을 토대로 작성된 글 입니다. https://devground.hanbit.co.kr/devground_2019/ 스타트업의 데이터 팀 구성 데이터 인프라 : 파이프라인 구축 및 자동화 (서버 엔지니어링, 관련 솔루션 도입, 자동화 등) Analysis : KPI 정의 및 관리 (지표 정의, BI Tool도입) / Ad-Hoc Analysis (고객 세그멘테이션, 고객행동/패널 분석, 마케팅효율 분석 등) ML/DL : 개인 맞춤추천 등 다양한 관점에 따른 데이터 요청이 증가하기 때문에, Data pipeline을 구축 해야한다. 사용자가 어떤 디바이스로 접속을 했는지, 어떤 서버 로그등 각종 트래킹 정보를 잘 저장하도록 구성 저장된 데이터를 .. 2021. 7. 14. 이전 1 ··· 16 17 18 19 다음 728x90