Presto Worker, Cordinator 튜닝 / 메모리 설정
·
Bigdata Engineering
Presto * Jvm.config -Xmx448G * Config.properties query.max-memory= 10752GB # value is set more than 42% of physical memory (448 * 0.42 = 188) query.max-memory-per-node= 188GB # value of this parameter should be greater than query.max-memory-per-node (448 * 0.50 = 224) query.max-total-memory-per-node= 224GB 각 설정값 설명 : * Jvm.config -Xmx : 코디네이터/ 워커가 jvm에 올리는 최대 힙 메모리입니다. 아래설정값들은 Xmx 값을 기준으로 설정되어야합..
[빅데이터]What is Facebook Presto? 프레스토 란? - 개요, 동작과정, 아키텍쳐
·
Bigdata Engineering
Intro Presto는 Facebook의 넘쳐나는 페타바이트급 데이터를 효율적으로 분석하기 위해 2012년도에 kickoff 된 프로젝트 입니다. 2013년 가을 Facebook에서 apache 라이선스를 적용하여 Presto 오픈소스를 공개하였습니다. [FE 발표] 즉, 기업이든 연구기관이든 큰 문제없이 무료로 사용할 수 있지요. [아파치 라이선스 2.0 FAQ ] Presto란 ? Presto는 Facebook kickoff 프로젝트의 내용처럼 TB, PB급 데이터를 효율적으로 처리하기 위해 만들어졌습니다. 대용량의 데이터를 빠르게 추출하기 원하면 Hive 보다는 Presto를 사용하는 것이 적합합니다. Presto의 핵심은 두가지입니다. 다양한 소스 지원 - Hive 메타스토어, RDBMS, 아마..
[Hadoop] hadoop 커맨드 실행시 Permission denied 해결.(root 계정 없이 실행)
·
Bigdata Engineering
개요 하둡 저장소에 저장된 hive warehouse 디렉토리별 용량을 확인하기 위해 아래 명령어를 사용하였다. hadoop fs -du -h /user/hive 하지만 아래와 같이 권한 문제로 일부 경로에 접근이 불가하였다. du: Permission denied: user=username, access=READ_EXECUTE, inode="/user/hive/.staging":hive:hive:drwx------ 원인 대부분의 현업에서, 엔지니어의 경우 root 계정이 아닌 superuser do(sudo) 실행이 가능한 계정을 받을 것 이다. 그렇기 때문에, hdfs는 user 권한에 따라 탐색이 불가능 할 수 있다. 해결 특정유저로 명령어 실행(sudo -u username "명령어") sudo ..
[빅데이터]요약 - Resource Manager ? Node Manager?
·
Bigdata Engineering
ResourceManager YARN 클러스터의 Master 서버로 하나 또는 이중화를 위해 두개의 서버에만 실행됨 클러스터 전체의 리소스를 관리 YARN 클러스터의 리소스를 사용하고자 하는 다른 플랫롬으로부터 요청을 받아 리소스 할당(스케줄링) NodeManager YARN 클러스터의 Worker 서버로 ResourceManager를 제외한 모든 서버에 실행 사용자가 요청한 프로그램을 실행하는 Container를 fork 시키고 Container를 모니터링 Container 장애 상황 또는 Container가 요청한 리소스보다 많이 사용하고 있는지 감시(요청한 리소스보다 많이 사용하면 해당 Container를 kill 시킴) Yarn Architecture 1) 리소스매니저는 글러볼 스케줄러라고 정의할..
[빅데이터] 요약 - 하둡 이란?, HDFS 동작과정
·
Bigdata Engineering
HADOOP 이란? 분산 환경에서 빅데이터를 “저장”하고 관리할 수 있는 자바 기반의 오픈소스 프레임워크. 무결성 원칙때문에, 이동 삭제 복사는 가능하나 수정은 불가능. 병렬로 접근하기 때문에 대용량데이터 I/O가 빠름 Hadoop은 데몬 자체를 뜻하고, HDFS는 Hadoop클러스터로 이루어진 File System 지칭합니다. 통상 같은 의미로 사용합니다 HDFS(Hadoop Distributed File System) 동작 과정 Data Write 과정 애플리케이션이 HDFS 클라이언트에 파일저장 요청 HDFS 클라이언트가 네임노드에 사용자가 요청한 파일경로 생성 요청 네임노드가 데이터노드들(파이프라인) 반환 (복제개수만큼) 첫번째 데이터노드에 저장, 첫번째 데이터노드는 두번째 데이터노드로 전송, 로..