데이터 엔지니어링 랜딩페이지

기본 개념 정리

데이터 엔지니어링

데이터 개요 - https://gruuuuu.hololy.org/data/db-dw-dl-lh/

빅데이터 - https://gruuuuu.hololy.org/data/hadoop-basic/

데이터베이스

Database - https://mangkyu.tistory.com/19

SQL 문법 - https://rachel0115.tistory.com/entry/SQL-%EA%B8%B0%EB%B3%B8-%EB%AC%B8%EB%B2%95-%EC%A0%95%EB%A6%AC-SELECT-%EC%A0%88

SQL join - https://inpa.tistory.com/entry/MYSQL-%F0%9F%93%9A-JOIN-%EC%A1%B0%EC%9D%B8-%EA%B7%B8%EB%A6%BC%EC%9C%BC%EB%A1%9C-%EC%95%8C%EA%B8%B0%EC%89%BD%EA%B2%8C-%EC%A0%95%EB%A6%AC

데이터 아키텍쳐

data mesh vs data fabric - data mesh와 data fabric

DW vs Data lake vs Data Lakehouse - Data Warehouse vs Data Lake vs Data Lakehouse

기출 문제 풀이

문항별 레퍼런스 정리 (대모듈/소모듈 포함)

문항	대모듈	소모듈	키워드	참고 링크	설명
문항	대모듈	소모듈	키워드	참고 링크	설명
1	데이터 엔지니어링 개요	정의 및 역할	데이터 엔지니어란	데이터 엔지니어 역할 정리	수집·처리·저장·품질 관리 중심
2	데이터 아키텍처링	데이터 구조 및 흐름 설계	Airflow DAG	Airflow Scheduler 개요	DAG 스케줄 관리
3	데이터 활용	빅데이터 포털	메타데이터 관리	Apache Atlas 소개	계보·메타 관리 툴
4	데이터 모델링	데이터 저장 기술	HDFS, Kafka, Vector DB	HDFS 아키텍처, Kafka 개념, 벡터DB Pinecone	분산 저장, 실시간 처리, 검색
5	데이터 아키텍처링	데이터 구조 및 흐름 설계	브론즈-실버-골드 계층	메달리온 아키텍처	L0 L2 데이터 계층화
6	데이터 아키텍처링	데이터 거버넌스 정의	거버넌스 개념	데이터 거버넌스란	보안·정확성·가용성
7	데이터 아키텍처링	데이터 거버넌스 정의	품질 관리	ISO 25012 정리	정합성·완전성·무결성
8	데이터 처리 프로그램	데이터 추출 적재	CDC	Debezium CDC	변경 데이터 캡처 방식
9	데이터 처리 프로그램	데이터 추출 적재	로그 설계	Database 트랜잭션	rollback 고려
10	플랫폼 아키텍처	데이터 플랫폼 아키텍처	레이어 구성	클라우드 플랫폼 아키텍처(레이어)	Ingestion~Serving
11	플랫폼 아키텍처	데이터 플랫폼 아키텍처	Lakehouse	Datalake vs Lakehouse 장단점	DW+Datalake 통합
12	AI	AI 기초	LLM & RAG	RAG 개념	LLM 한계 보완
13	AI	AI 기초	과적합 방지	교차 검증	규제·데이터 확장
14	플랫폼 아키텍처	데이터 플랫폼 아키텍처	Data Mesh/Fabric	Data Mesh 소개, Data Fabric	최신 패턴 비교
15	플랫폼 아키텍처	솔루션 아키텍처	CDC 툴	AWS DMS CDC	에이전트 기반 CDC
16	데이터 모델링	데이터 모델링	스타 vs 스노우	스타/스노우플레이크 차이	모델링 비교
17	데이터 모델링	데이터 모델링	SCD 관리	차원 이력 관리	Slowly Changing Dimension
18	데이터 아키텍처링	데이터 거버넌스 정의	품질 지표	데이터 품질 연구	ISO 기반 지표
19	플랫폼 아키텍처	데이터 플랫폼 아키텍처	Schema-on-Read	데이터 레이크 구조	저장 후 해석
20	플랫폼 아키텍처	데이터 플랫폼 아키텍처	Hybrid DW	하이브리드 아키텍처	Hadoop+DW
21	데이터 처리 프로그램	배치 프로그램	Airflow 스케줄	Airflow DAG 실행	cron/의존성
22	데이터 활용	Ad-hoc 분석	집계 vs 계산	OLAP 연산	합계 vs 사전 집계
23	데이터 활용	시각화&대시보드	Drill Across	OLAP Drill 기능	병합 분석
24	데이터 처리 프로그램	분석 모델 관리	모델 배포	TF Serving 가이드	입력/출력 스키마

추가 정리 (핵심 포인트)

엔지니어 역할 → ETL·저장·품질관리 중심 / 분석은 데이터 분석가
CDC → timestamp 기반 누락 가능성 → log 기반 CDC 안정적
플랫폼 아키텍처 → 레이어별 솔루션 구분 (Ingestion ~ Serving)
Lakehouse → Datalake + DW 장점 결합
데이터 모델링 → Star(단순/빠름) vs Snowflake(정규화/복잡)
품질관리 지표 → 완전성, 정합성, 유효성, 참조무결성
OLAP 기능 → drill-down/up/across/through, slicing, dicing 차이
모델 서빙 → 입력/출력 타입·데이터 타입 확인 필수

데이터 엔지니어링 개요

데이터(Data)
데이터는 관찰이나 실험, 조사 등을 통해 얻은 사실이나 자료를 의미하며, 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 등 다양한 형태로 존재합니다.
제공된 다이어그램에서 데이터는 다음과 같은 흐름으로 처리되고 활용됩니다.
Source (원본): 데이터의 시작점으로, '정형 Data'와 '비정형 Data/반정형 Data'로 구분됩니다.
정형 Data: 미리 정의된 형식과 구조를 가지는 데이터(예: 관계형 데이터베이스의 표 형태).
비정형 Data/반정형 Data: 정해진 구조가 없거나 부분적으로 구조화된 데이터(예: 텍스트, 이미지, 오디오, JSON, XML 등).
L0 (Raw Data): 원본 데이터가 가공되지 않은 'Raw Data' 형태로 저장되는 단계입니다.
L1 (Refined & Integrated Data): Raw Data를 정제하고 통합하여 분석에 적합한 형태로 가공한 데이터입니다.
L2 (Summary & Insight Data): Refined & Integrated Data를 기반으로 요약 및 인사이트를 도출한 데이터입니다.
활용: 최종적으로 L2 단계의 데이터가 'Dashboard Report Ad-hoc 활용' 등 다양한 방식으로 활용됩니다.
분석 모델 및 통계분석 모델 개발: Raw Data와 Refined & Integrated Data를 활용하여 분석 모델을 개발하고, 통계 분석을 통해 데이터의 가치를 높이는 과정이 포함됩니다.
이러한 과정을 통해 다양한 형태의 데이터가 수집, 처리, 분석되어 최종적으로 활용 가능한 정보와 인사이트로 변환됩니다.

저작자표시 (새창열림)

기본 개념 정리