[빅데이터]요약 - Resource Manager ? Node Manager?
·
Bigdata Engineering
ResourceManager YARN 클러스터의 Master 서버로 하나 또는 이중화를 위해 두개의 서버에만 실행됨 클러스터 전체의 리소스를 관리 YARN 클러스터의 리소스를 사용하고자 하는 다른 플랫롬으로부터 요청을 받아 리소스 할당(스케줄링) NodeManager YARN 클러스터의 Worker 서버로 ResourceManager를 제외한 모든 서버에 실행 사용자가 요청한 프로그램을 실행하는 Container를 fork 시키고 Container를 모니터링 Container 장애 상황 또는 Container가 요청한 리소스보다 많이 사용하고 있는지 감시(요청한 리소스보다 많이 사용하면 해당 Container를 kill 시킴) Yarn Architecture 1) 리소스매니저는 글러볼 스케줄러라고 정의할..
[빅데이터] 요약 - 하둡 이란?, HDFS 동작과정
·
Bigdata Engineering
HADOOP 이란? 분산 환경에서 빅데이터를 “저장”하고 관리할 수 있는 자바 기반의 오픈소스 프레임워크. 무결성 원칙때문에, 이동 삭제 복사는 가능하나 수정은 불가능. 병렬로 접근하기 때문에 대용량데이터 I/O가 빠름 Hadoop은 데몬 자체를 뜻하고, HDFS는 Hadoop클러스터로 이루어진 File System 지칭합니다. 통상 같은 의미로 사용합니다 HDFS(Hadoop Distributed File System) 동작 과정 Data Write 과정 애플리케이션이 HDFS 클라이언트에 파일저장 요청 HDFS 클라이언트가 네임노드에 사용자가 요청한 파일경로 생성 요청 네임노드가 데이터노드들(파이프라인) 반환 (복제개수만큼) 첫번째 데이터노드에 저장, 첫번째 데이터노드는 두번째 데이터노드로 전송, 로..
[Bigdata] Yarn Resource Manager API Call
·
Bigdata Engineering/빅데이터 플랫폼 R&D
[빅데이터] 얀 리소스 매니저 API 호출 Command #cmd GET "[ResourceManagerHost]/ws/v1/cluster/apps?param1=value1&param2=value2&param3=value3..." # ex) if you want to return "states Running" by limit 20 GET "http://ResourceManager.host.net:8088/ws/v1/cluster/apps?limit=20&states=RUNNING" Return Example You can Return JSON Type 예 ) {"apps":{"app":[{"id":"application_1579679167074_XXXX","user":"hive","name":"SELEC..
[빅데이터]데이터 엔지니어 - 하둡 에코 시스템의 이해(요약 본)
·
Bigdata Engineering
HDFS 데이터 저장 방식 1. 애플리케이션이 HDFS 클라이언트에 파일저장 요청 2. HDFS 클라이언트가 네임노드에 사용자가 요청한 파일경로 생성 요청 3. 네임노드가 데이터노드들(파이프라인) 반환 (복제개수만큼) 4. 첫번째 데이터노드에 저장, 첫번째 데이터노드는 두번째 데이터노드로 전송, 로컬 저장 후 세번쨰로 전송... 완료 후 첫번 째 데이터노드에 완료 사실 반환 5. 데이터노드장애 시 파이프라인에서 제거 후 네임노드가 다른 데이터노드 배치 6. 첫번째 데이터노드가 클라이언트에게 저장완료 응답 7. 클라이트가 애플리케이션에 완료 응답 HDFS 데이터 읽기 1. 네임노드에게 요청한 파일의 블록 위치 정보 요청 2. 클라이언트에 가까운 순서대로 정렬하여 데이터노드 목록 반환. 3. 클라이언트는 데..
[Redis] In memory DB Redis 설치 (CentOS 6.9, NoSQL, Master - Slave 구조)
·
Bigdata Engineering
Redis 란 ? Redis는 NO Sql의 일종으로 기존 MySQL, Maria DB와는 다르게 In Memory를 사용하여 많은 장점이 있다. 처리 속도가 빠르다. 당연히 데이터가 메모리+Disk에 저장된다. 그러나, 속도는 Memcached와 큰 차이가 없다. 데이터가 메모리+Disk에 저장된다. 프로세스가 죽거나 장비가 Shutdown되더라도 Data의 복구가 가능하다 만료일을 지정하여 만료가 되면 자동으로 데이터가 사라진다. 동일한 기능을 지원한다. 저장소 메모리 재사용 하지 않는다. 명시적으로만 데이터를 제거할 수 있다. Redis 설치 과정 :: 내부 IP에 대해선 10.xxx.xxx.xxx 로 마스킹 처리 하였습니다. 서버에 맞게 수정 바랍니다. 1 . Redis 설치 redis를 /hom..