HADOOP 이란?

  • 분산 환경에서 빅데이터를 저장하고 관리할 수 있는 자바 기반의 오픈소스 프레임워크.
  • 무결성 원칙때문에, 이동 삭제 복사는 가능하나 수정은 불가능.
  • 병렬로 접근하기 때문에 대용량데이터 I/O가 빠름
Hadoop은 데몬 자체를 뜻하고, HDFS는 Hadoop클러스터로 이루어진 File System 지칭합니다.
통상 같은 의미로 사용합니다

 

 

HDFS(Hadoop Distributed File System) 동작 과정

Data Write 과정

hadoop write

  • 애플리케이션이 HDFS 클라이언트에 파일저장 요청
  • HDFS 클라이언트가 네임노드에 사용자가 요청한 파일경로 생성 요청
  • 네임노드가 데이터노드들(파이프라인) 반환 (복제개수만큼)
  • 첫번째 데이터노드에 저장, 첫번째 데이터노드는 두번째 데이터노드로 전송, 로컬 저장후 세번쨰로 전송... 완료 후 첫번 째 데이터노드에 완료 사실 반환
  • 데이터노드장애 시 파이프라인에서 제거 후 네임노드가 다른 데이터노드 배치
  • 첫번째 데이터노드가 클라이언트에게 저장완료 응답
  • 클라이언트가 애플리케이션에 완료 응답

 

Data Read 과정

hadoop read

  • 네임노드에게 요청한 파일의 블록 위치 정보 요청
  • 클라이언트에 가까운 순서대로 정렬하여 데이터노드 목록 반환.
  • 클라이언트는 데이터노드에 파일 조회 요청

 

사진 출처 : http://www.corejavaguru.com/bigdata/hadoop

 

+ Recent posts