Hadoop (1) 썸네일형 리스트형 [Hadoop] 하둡(Hadoop): 대규모 분산 병렬 처리 1. 하둡(Hadoop)- 대규모 분산 병렬 처리의 업계 표준인 맵리듀스(MapReduce) 시스템과 분산 파일 시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술- 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산 환경에서 빅데이터를 저장 및 처리할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 2. 하둡 에코 시스템(Hadoop Ecosystem)- 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 집합으로, 수집, 저장, 처리기술과 분석, 실시간 SQL 질의 기술로 구분 2-1. 비정형 데이터 수집- 척와(Chuckwa): 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술- 플럼(Flume): 많은 양의 로그 데이터를 효율적으.. 이전 1 다음