728x90
Production system vc 데이터웨어하우스
- Production sysyem : ERP, Database, CRM등 기업 내에 데이터가 생겨나는 곳
- Normalized Schema : 작은 단위의 여러 테이블로 쪼개져 있다.
- 데이터웨어하우스 : 통합된 분석 보고서를 작성하기 위해 다양한 소스로부터 데이터를 저장하는 것
- Dimensional Schema : 원하는 데이터만 뽑을 수 있도록 적은 테이블로 구성되어 있다. 왜냐하면 분석을 위해 쉽게 데이터를 추출할 수 있도록 만들어야 하기 때문이다.
ETL > ELT
위에서 언급한 Production system에서 데이터웨어하우스로 데이터를 옮겨야 하는 과정이 필요하다. 이때, 이 과정을 ETL이라고 한다.
즉, 데이터를 Production system에서 추출하고 변환 (normalized to dimensional schema)하고 Data warehouse로 적재하는 것을 의미한다.
이때, 추출하고 변환하는것을 자동화할 수 없고 회사마다 과정들이 다 다르다. 따라서 요즘에는 추출한 다음 Data warehouse로 적재한 후 변환하는 방식으로 진행한다.
Data Infrastructure
728x90
'개발관련' 카테고리의 다른 글
[Error] modulenotfounderror: no module named 'pip._internal' 해결 방법 (0) | 2023.04.26 |
---|---|
[개발 환경 구축] Ubuntu18.04 LTS에 Python 3.8 업그레이드 하는 방법 (0) | 2023.04.26 |
[Python] 데이터를 빠르게 전처리 하는 방법 - (1) pandas 읽고 쓰기 비교 (pickle, npz, npy, feature, parquet) (0) | 2023.04.16 |
ChatGPT 리뷰 - 요즘 핫한 ChatGPT를 사용해본 후기 (0) | 2022.12.15 |
AWS EC2 VNC서버를 이용하여 GUI툴 사용하는 방법 - (MAC Viewer) (0) | 2022.11.27 |
댓글