빅데이터 기술 이해하기

Updated:

1. 빅데이터 Software

S/W 설명 비고
하둡 HDFS - 하둡 분산 파일시스템
- 대용량 데이터를 다수의 데이터노드에 분산하여 저장
(1pb 데이터를 128tb 크기로 쪼개서 저장)
- 데이터 가용성을 보장
오픈소스
NoSQL-HBase - HDFS 기반의 Semi-Structured 데이터 저장소
- 정형 및 비정형 대용량 데이터를 저장
오픈소스
하둡 MapReduce - HDFS 기반의 대용량 데이터 배치 병렬처리 중심 시스템
- 프레임워크(개발환경)를 제공
- Key, Value 쌍의 데이터 구조(Map)를 사용해 데이터 저장
- 분산된 노드간에 데이터가 이동하는 것이 아닌 소스가 이동하여 데이터를 가공
오픈소스
Hive - 하둡 기반의 DataWare House, HDFS에 대용량데이터 자동병렬처리
- HiveQL이라는 쿼리 지원 데이터 분석 작업을 수행
- Hive Driver가 Map/Reduce 코드로 변화, 실행하여 분석 작업을 수행
오픈소스
Pig - Yahoo에서 처음 개발
- 복잡한 Map Reduce 작업을 대체할 Pig Latin 언어로 스크립트를 작성하면 HDFS에 저장된 데이터로 맵리듀스 실행
오픈소스
R 오픈소스 통계 분석 및 시각화 소프트웨어, 리눅스 서버 버전을 지원 오픈소스 상용(RA)
RHadoop - DFS나 HBase의 데이터를 R에서 사용하도록 지원하는 커넥터
- RMR은 R 함수 맵리듀스 처리
오픈소스
Sqoop 하둡(HDFS,Hive,Hbase)와 RDBMS(Oracle,Mysql)간의 데이터 Import/Export 지원 어플리케이션 오픈소스
Zookeeper - 하둡기반의 클러스터 분산코디네이터
- HBase의 마스터 데이터 저장 및 리전 서버 관리 지원
- 분산된 각 노드를 관리하고 각 노드 간의 상호 조정을 가능하게 하는 서비스를 담당
오픈소스
Flume - 대용량 로그 수집 시스템
- Agent-Collector 구성으로 외부 데이터를 수집해서 하둡에 저장
오픈소스
Mahout - 빅데이터 처리용 기계 학습 라이브러리
- 추천 엔진과 군집, 분류 기능을 처리자바 라이브러리 형태를 가짐
 
HCatalog - 하둡 생태계에서 Map/Reduce, Pig, Hive 같은 상이한 서비스의 메타데이터 관리 서비스
- 서로 다른 서비스에서 데이터를 공유 가능
 
Hbase - Hadoop Database, <Key, Value>구조의 대표적인 NoSQL
- HDFS를 기반으로 하며 컬럼 기반의 데이터 베이스
 
Avro/Thrift - 다양한 언어를 지원하는 RPC(Remote Procedure Call) 서버와 데이터를 교환하여 데이터를 직렬화하는 메커니즘을 제공하는 소프트웨어 프레임워크
- 경량 어플리케이션 서버
 
Cluster Manager - 하둡과 수 많은 오픈소스 S/W를 여러 대의 머신에 설치, 관리, 설정 동기화, 모니터
- Ambari (호튼웍스), CM (클라우데라, 상용), JCM (국산)
 



2. 빅데이터 라이프사이클

image