기본 개념 정리
데이터 엔지니어링
데이터 개요 - https://gruuuuu.hololy.org/data/db-dw-dl-lh/
빅데이터 - https://gruuuuu.hololy.org/data/hadoop-basic/
데이터베이스
Database - https://mangkyu.tistory.com/19
정규화 - https://2junbeom.tistory.com/73
데이터 아키텍쳐
data mesh vs data fabric - data mesh와 data fabric
DW vs Data lake vs Data Lakehouse - Data Warehouse vs Data Lake vs Data Lakehouse
기출 문제 풀이
문항별 레퍼런스 정리 (대모듈/소모듈 포함)
문항 | 대모듈 | 소모듈 | 키워드 | 참고 링크 | 설명 |
---|---|---|---|---|---|
문항 | 대모듈 | 소모듈 | 키워드 | 참고 링크 | 설명 |
1 | 데이터 엔지니어링 개요 | 정의 및 역할 | 데이터 엔지니어란 | 데이터 엔지니어 역할 정리 | 수집·처리·저장·품질 관리 중심 |
2 | 데이터 아키텍처링 | 데이터 구조 및 흐름 설계 | Airflow DAG | Airflow Scheduler 개요 | DAG 스케줄 관리 |
3 | 데이터 활용 | 빅데이터 포털 | 메타데이터 관리 | Apache Atlas 소개 | 계보·메타 관리 툴 |
4 | 데이터 모델링 | 데이터 저장 기술 | HDFS, Kafka, Vector DB | HDFS 아키텍처, Kafka 개념, 벡터DB Pinecone | 분산 저장, 실시간 처리, 검색 |
5 | 데이터 아키텍처링 | 데이터 구조 및 흐름 설계 | 브론즈-실버-골드 계층 | 메달리온 아키텍처 | L0 L2 데이터 계층화 |
6 | 데이터 아키텍처링 | 데이터 거버넌스 정의 | 거버넌스 개념 | 데이터 거버넌스란 | 보안·정확성·가용성 |
7 | 데이터 아키텍처링 | 데이터 거버넌스 정의 | 품질 관리 | ISO 25012 정리 | 정합성·완전성·무결성 |
8 | 데이터 처리 프로그램 | 데이터 추출 적재 | CDC | Debezium CDC | 변경 데이터 캡처 방식 |
9 | 데이터 처리 프로그램 | 데이터 추출 적재 | 로그 설계 | Database 트랜잭션 | rollback 고려 |
10 | 플랫폼 아키텍처 | 데이터 플랫폼 아키텍처 | 레이어 구성 | 클라우드 플랫폼 아키텍처(레이어) | Ingestion~Serving |
11 | 플랫폼 아키텍처 | 데이터 플랫폼 아키텍처 | Lakehouse | Datalake vs Lakehouse 장단점 | DW+Datalake 통합 |
12 | AI | AI 기초 | LLM & RAG | RAG 개념 | LLM 한계 보완 |
13 | AI | AI 기초 | 과적합 방지 | 교차 검증 | 규제·데이터 확장 |
14 | 플랫폼 아키텍처 | 데이터 플랫폼 아키텍처 | Data Mesh/Fabric | Data Mesh 소개, Data Fabric | 최신 패턴 비교 |
15 | 플랫폼 아키텍처 | 솔루션 아키텍처 | CDC 툴 | AWS DMS CDC | 에이전트 기반 CDC |
16 | 데이터 모델링 | 데이터 모델링 | 스타 vs 스노우 | 스타/스노우플레이크 차이 | 모델링 비교 |
17 | 데이터 모델링 | 데이터 모델링 | SCD 관리 | 차원 이력 관리 | Slowly Changing Dimension |
18 | 데이터 아키텍처링 | 데이터 거버넌스 정의 | 품질 지표 | 데이터 품질 연구 | ISO 기반 지표 |
19 | 플랫폼 아키텍처 | 데이터 플랫폼 아키텍처 | Schema-on-Read | 데이터 레이크 구조 | 저장 후 해석 |
20 | 플랫폼 아키텍처 | 데이터 플랫폼 아키텍처 | Hybrid DW | 하이브리드 아키텍처 | Hadoop+DW |
21 | 데이터 처리 프로그램 | 배치 프로그램 | Airflow 스케줄 | Airflow DAG 실행 | cron/의존성 |
22 | 데이터 활용 | Ad-hoc 분석 | 집계 vs 계산 | OLAP 연산 | 합계 vs 사전 집계 |
23 | 데이터 활용 | 시각화&대시보드 | Drill Across | OLAP Drill 기능 | 병합 분석 |
24 | 데이터 처리 프로그램 | 분석 모델 관리 | 모델 배포 | TF Serving 가이드 | 입력/출력 스키마 |
추가 정리 (핵심 포인트)
- 엔지니어 역할 → ETL·저장·품질관리 중심 / 분석은 데이터 분석가
- CDC → timestamp 기반 누락 가능성 → log 기반 CDC 안정적
- 플랫폼 아키텍처 → 레이어별 솔루션 구분 (Ingestion ~ Serving)
- Lakehouse → Datalake + DW 장점 결합
- 데이터 모델링 → Star(단순/빠름) vs Snowflake(정규화/복잡)
- 품질관리 지표 → 완전성, 정합성, 유효성, 참조무결성
- OLAP 기능 → drill-down/up/across/through, slicing, dicing 차이
- 모델 서빙 → 입력/출력 타입·데이터 타입 확인 필수
데이터 엔지니어링 개요
데이터(Data)
데이터는 관찰이나 실험, 조사 등을 통해 얻은 사실이나 자료를 의미하며, 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 등 다양한 형태로 존재합니다.
제공된 다이어그램에서 데이터는 다음과 같은 흐름으로 처리되고 활용됩니다.
Source (원본): 데이터의 시작점으로, '정형 Data'와 '비정형 Data/반정형 Data'로 구분됩니다.
정형 Data: 미리 정의된 형식과 구조를 가지는 데이터(예: 관계형 데이터베이스의 표 형태).
비정형 Data/반정형 Data: 정해진 구조가 없거나 부분적으로 구조화된 데이터(예: 텍스트, 이미지, 오디오, JSON, XML 등).
L0 (Raw Data): 원본 데이터가 가공되지 않은 'Raw Data' 형태로 저장되는 단계입니다.
L1 (Refined & Integrated Data): Raw Data를 정제하고 통합하여 분석에 적합한 형태로 가공한 데이터입니다.
L2 (Summary & Insight Data): Refined & Integrated Data를 기반으로 요약 및 인사이트를 도출한 데이터입니다.
활용: 최종적으로 L2 단계의 데이터가 'Dashboard Report Ad-hoc 활용' 등 다양한 방식으로 활용됩니다.
분석 모델 및 통계분석 모델 개발: Raw Data와 Refined & Integrated Data를 활용하여 분석 모델을 개발하고, 통계 분석을 통해 데이터의 가치를 높이는 과정이 포함됩니다.
이러한 과정을 통해 다양한 형태의 데이터가 수집, 처리, 분석되어 최종적으로 활용 가능한 정보와 인사이트로 변환됩니다.