스타트업에서 적용하는 Data Team

728x90

본 글은 크롱 - 린하게 구축하는 스타트업 데이터 파이프 라인을 토대로 작성된 글 입니다.

스타트업의 데이터 팀 구성

데이터 인프라 : 파이프라인 구축 및 자동화 (서버 엔지니어링, 관련 솔루션 도입, 자동화 등)
Analysis : KPI 정의 및 관리 (지표 정의, BI Tool도입) / Ad-Hoc Analysis (고객 세그멘테이션, 고객행동/패널 분석, 마케팅효율 분석 등)
ML/DL : 개인 맞춤추천 등

다양한 관점에 따른 데이터 요청이 증가하기 때문에, Data pipeline을 구축 해야한다.

이를 구현하기 위해 선행되어야 할 단계

룰 정의를 위한 수집 데이터 분류 - Data Lake

유형별 분류
- 로그 데이터 : User Action Event Log, 고객센터, CTI, Call Log, 서버 로그 ...
- 운영 / 상품 데이터 : 상품 주문, 적립금 관리, 카테고리 관리 ...
- 통계 데이터 : Google Analytics, App Report, Marketing Report
주기별 분류
- 기간별 : Daily, Weekly, Monthly
- 실시간성 : 사용자 클릭, 주문 정보 등

Data Lake Needs Definition

데이터의 경우, S3에 저장, 실시간으로 계속 트래킹해야 하는 데이터의 경우에는 Amazon Elasticsearch로 realtime으로 넣는다.

S3에서 데이터 생애 주기에 따라 처리

초기에는 EC2에 Jupyter로 서버를 구성해서 운영 > AWS Elastic MapReduce로 구성 (대용량 데이터 처리환경을 만들 수 있다.)

EMR - Jupyter Hub 제공 가능

EMR - Zeppelin (실시간 잡을 보는 것)

EMR - Ganglia (Cluster Monitor System)

Deploy - Data Warehouse & BI

Data Warehous : Redshift (lead양이 많은 데이터)

Data Warehous : 바로 S3 (lead양이 적은 데이터)

BI이전 작업 : AWS Quicksight > Power BI (전략, 마케팅)

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

지구는 둥그니까