본문 바로가기
개발관련

Data Infra

by 지구킹 2021. 7. 18.
728x90

Production system vc 데이터웨어하우스

  • Production sysyem : ERP, Database, CRM등 기업 내에 데이터가 생겨나는 곳
    • Normalized Schema : 작은 단위의 여러 테이블로 쪼개져 있다.
  • 데이터웨어하우스 : 통합된 분석 보고서를 작성하기 위해 다양한 소스로부터 데이터를 저장하는 것
    • Dimensional Schema : 원하는 데이터만 뽑을 수 있도록 적은 테이블로 구성되어 있다. 왜냐하면 분석을 위해 쉽게 데이터를 추출할 수 있도록 만들어야 하기 때문이다.

 

ETL > ELT

위에서 언급한 Production system에서 데이터웨어하우스로 데이터를 옮겨야 하는 과정이 필요하다. 이때, 이 과정을 ETL이라고 한다.

즉, 데이터를 Production system에서 추출하고 변환 (normalized to dimensional schema)하고 Data warehouse로 적재하는 것을 의미한다.

이때, 추출하고 변환하는것을 자동화할 수 없고 회사마다 과정들이 다 다르다. 따라서 요즘에는 추출한 다음 Data warehouse로 적재한 후 변환하는 방식으로 진행한다.

 

Data Infrastructure

 

728x90

댓글