Bigdata Engineering
[빅데이터] 요약 - 하둡 이란?, HDFS 동작과정
DAMAT
2020. 3. 9. 01:40
HADOOP 이란?
- 분산 환경에서 빅데이터를 “저장”하고 관리할 수 있는 자바 기반의 오픈소스 프레임워크.
- 무결성 원칙때문에, 이동 삭제 복사는 가능하나 수정은 불가능.
- 병렬로 접근하기 때문에 대용량데이터 I/O가 빠름
Hadoop은 데몬 자체를 뜻하고, HDFS는 Hadoop클러스터로 이루어진 File System 지칭합니다.
통상 같은 의미로 사용합니다
HDFS(Hadoop Distributed File System) 동작 과정
Data Write 과정
- 애플리케이션이 HDFS 클라이언트에 파일저장 요청
- HDFS 클라이언트가 네임노드에 사용자가 요청한 파일경로 생성 요청
- 네임노드가 데이터노드들(파이프라인) 반환 (복제개수만큼)
- 첫번째 데이터노드에 저장, 첫번째 데이터노드는 두번째 데이터노드로 전송, 로컬 저장후 세번쨰로 전송... 완료 후 첫번 째 데이터노드에 완료 사실 반환
- 데이터노드장애 시 파이프라인에서 제거 후 네임노드가 다른 데이터노드 배치
- 첫번째 데이터노드가 클라이언트에게 저장완료 응답
- 클라이언트가 애플리케이션에 완료 응답
Data Read 과정
- 네임노드에게 요청한 파일의 블록 위치 정보 요청
- 클라이언트에 가까운 순서대로 정렬하여 데이터노드 목록 반환.
- 클라이언트는 데이터노드에 파일 조회 요청
사진 출처 : http://www.corejavaguru.com/bigdata/hadoop