[빅데이터] 요약 - 하둡 이란?, HDFS 동작과정

2020. 3. 9. 01:40·Bigdata Engineering

HADOOP 이란?

  • 분산 환경에서 빅데이터를 “저장”하고 관리할 수 있는 자바 기반의 오픈소스 프레임워크.
  • 무결성 원칙때문에, 이동 삭제 복사는 가능하나 수정은 불가능.
  • 병렬로 접근하기 때문에 대용량데이터 I/O가 빠름
Hadoop은 데몬 자체를 뜻하고, HDFS는 Hadoop클러스터로 이루어진 File System 지칭합니다.
통상 같은 의미로 사용합니다

 

 

HDFS(Hadoop Distributed File System) 동작 과정

Data Write 과정

hadoop write

  • 애플리케이션이 HDFS 클라이언트에 파일저장 요청
  • HDFS 클라이언트가 네임노드에 사용자가 요청한 파일경로 생성 요청
  • 네임노드가 데이터노드들(파이프라인) 반환 (복제개수만큼)
  • 첫번째 데이터노드에 저장, 첫번째 데이터노드는 두번째 데이터노드로 전송, 로컬 저장후 세번쨰로 전송... 완료 후 첫번 째 데이터노드에 완료 사실 반환
  • 데이터노드장애 시 파이프라인에서 제거 후 네임노드가 다른 데이터노드 배치
  • 첫번째 데이터노드가 클라이언트에게 저장완료 응답
  • 클라이언트가 애플리케이션에 완료 응답

 

Data Read 과정

hadoop read

  • 네임노드에게 요청한 파일의 블록 위치 정보 요청
  • 클라이언트에 가까운 순서대로 정렬하여 데이터노드 목록 반환.
  • 클라이언트는 데이터노드에 파일 조회 요청

 

사진 출처 : http://www.corejavaguru.com/bigdata/hadoop

 

저작자표시 (새창열림)

'Bigdata Engineering' 카테고리의 다른 글

[Hadoop] hadoop 커맨드 실행시 Permission denied 해결.(root 계정 없이 실행)  (0) 2020.03.09
[빅데이터]요약 - Resource Manager ? Node Manager?  (0) 2020.03.09
[빅데이터]데이터 엔지니어 - 하둡 에코 시스템의 이해(요약 본)  (0) 2020.02.18
[Redis] In memory DB Redis 설치 (CentOS 6.9, NoSQL, Master - Slave 구조)  (0) 2020.02.14
[CDH] 클라우데라 Hadoop - Open JDK 교체(oracle jdk -> open jdk)  (0) 2020.02.14
'Bigdata Engineering' 카테고리의 다른 글
  • [Hadoop] hadoop 커맨드 실행시 Permission denied 해결.(root 계정 없이 실행)
  • [빅데이터]요약 - Resource Manager ? Node Manager?
  • [빅데이터]데이터 엔지니어 - 하둡 에코 시스템의 이해(요약 본)
  • [Redis] In memory DB Redis 설치 (CentOS 6.9, NoSQL, Master - Slave 구조)
DAMAT
DAMAT
Computer Science Engineer를 위한 tiStory
  • DAMAT
    Damat - Idea Factory
    DAMAT
  • 전체
    오늘
    어제
    • 분류 전체보기 (25)
      • Bigdata Engineering (14)
        • 빅데이터 플랫폼 R&D (1)
      • System Engineering (3)
      • Linux Server (3)
      • 프로그래밍 (1)
      • 교육 (1)
        • 문제 (1)
      • 코딩테스트 기록지 (2)
        • Python (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    zookeeper cli
    주키퍼 cli
    빅데이터 모니터링
    gitlab 버전
    gitlab 패치
    파이썬 소켓통신
    주키퍼 명령어
    mysql 보관기관 설정
    파이썬 소켓
    presto 메모리 설정
    db binlog
    python 소켓통신
    kafka cli
    python데몬
    hadoop이란
    activemq 모니터링
    kafka 명령어
    리소스매니저
    python 소켓 프로그래밍
    zookeeper 명령어
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
DAMAT
[빅데이터] 요약 - 하둡 이란?, HDFS 동작과정
상단으로

티스토리툴바