데이터 인프라를 구축하기 위해서 필요한 것은 뭘까?
대용량 데이터를 처리하기 위해서 어떤 서버 환경을 구축해야 할까?
공부겸 검색한거 정리해보기
데이터 웨어하우스 ?
데이터 베이스?
데이터 레이크?
데이터 마트?
얘네들이 가진 각각의 목적성이 뭘까?
요점 정리 ( data resource -> (ETL) -> data warehouse -> data mart )
DB를 운영한다 -> 데이터가 쌓인다 -> 통계가 필요하다 -> 통계조회를 위한 DB구축을 한다(ETL) -> 그렇게 통계DB에 데이터가 쌓인다(데이터 웨어하우스) -> 데이터 웨어하우스의 데이터를 특정 부서나 주제에 맞게 재정리를 하여 원하는 데이터를 쉽고 빠르게 조회하도록 한다(데이터 마트)
공부한대로 한눈에 보기 좋게 정리해보자면,
Data Warehouse(DW) | Data Base(DB) | Data Lake(DL) | Data Mart(DM) |
- 데이터 리소스를 형식에 맞게 잘 추출/ 변환하는 ETL과정을 거쳐 데이터 웨어 하우스에 저장되게 됨 - 즉, 스토리지 시스템이라고 생각 - 중앙 데이터 저장소 역할 - 세부 데이터들을 정규화 형식으로 저장 - 여러소스로 부터 수집된 정규화된 데이터 |
- 통합 관리되는 전체 데이터 = 단순 데이터 집합 (데이터 베이스에 접근하기 위해서 SQL이 만들어졌다고 함) |
- 쿼리되기 전까지는 정의되지않음 - 정형/반정형 및 비정형 등 모든 데이터 (원시데이터) |
- 단일, 특정 주제에 초점이 맞춰진 단순한 형태의 데이터 웨어하우스 (운영조직을 위한) - 데이터 웨어하우스보다 적은 소스로부터 데이터 수집 (크기작음) - 데이터 웨어하우스의 하위섹션 - 스타 스키마 사용 |
그후 데이터 분석가나 비즈니스 애널리스트, 데이터 사이언티스트 등 데이터 관련 직군에서는 SQL 등 분석프로그램을 통해서 데이터에 액세스 한다.
이렇게 다양한 형태로 데이터를 저장/분리 하는 이유는 뭘까?
그것은 바로 DB는 원래 작은 규모의 조회, 삽입,삭제, 수정을 위해서 만든 시스템인데, 데이터를 필요로 하는 모든 사람이 데이터를 얻기 위해 액세스하게 되면 시스템 부하로 이어지기 때문에 서버가 터지게 된다.
그래서! 데이터 마트처럼 각 조직마다 필요한 영역을 따로 작게 만들어 두는거다. 조직마다의 필요한 데이터만 구성한 서버를 만들어두면, 접근성도 좋고, 과부하 이슈도 없고 좋은 거니까.
댓글