빅데이터 기술 이해하기
Updated:
1. 빅데이터 Software
S/W | 설명 | 비고 |
---|---|---|
하둡 HDFS | - 하둡 분산 파일시스템 - 대용량 데이터를 다수의 데이터노드에 분산하여 저장 (1pb 데이터를 128tb 크기로 쪼개서 저장) - 데이터 가용성을 보장 |
오픈소스 |
NoSQL-HBase | - HDFS 기반의 Semi-Structured 데이터 저장소 - 정형 및 비정형 대용량 데이터를 저장 |
오픈소스 |
하둡 MapReduce | - HDFS 기반의 대용량 데이터 배치 병렬처리 중심 시스템 - 프레임워크(개발환경)를 제공 - Key, Value 쌍의 데이터 구조(Map)를 사용해 데이터 저장 - 분산된 노드간에 데이터가 이동하는 것이 아닌 소스가 이동하여 데이터를 가공 |
오픈소스 |
Hive | - 하둡 기반의 DataWare House, HDFS에 대용량데이터 자동병렬처리 - HiveQL이라는 쿼리 지원 데이터 분석 작업을 수행 - Hive Driver가 Map/Reduce 코드로 변화, 실행하여 분석 작업을 수행 |
오픈소스 |
Pig | - Yahoo에서 처음 개발 - 복잡한 Map Reduce 작업을 대체할 Pig Latin 언어로 스크립트를 작성하면 HDFS에 저장된 데이터로 맵리듀스 실행 |
오픈소스 |
R | 오픈소스 통계 분석 및 시각화 소프트웨어, 리눅스 서버 버전을 지원 | 오픈소스 상용(RA) |
RHadoop | - DFS나 HBase의 데이터를 R에서 사용하도록 지원하는 커넥터 - RMR은 R 함수 맵리듀스 처리 |
오픈소스 |
Sqoop | 하둡(HDFS,Hive,Hbase)와 RDBMS(Oracle,Mysql)간의 데이터 Import/Export 지원 어플리케이션 | 오픈소스 |
Zookeeper | - 하둡기반의 클러스터 분산코디네이터 - HBase의 마스터 데이터 저장 및 리전 서버 관리 지원 - 분산된 각 노드를 관리하고 각 노드 간의 상호 조정을 가능하게 하는 서비스를 담당 |
오픈소스 |
Flume | - 대용량 로그 수집 시스템 - Agent-Collector 구성으로 외부 데이터를 수집해서 하둡에 저장 |
오픈소스 |
Mahout | - 빅데이터 처리용 기계 학습 라이브러리 - 추천 엔진과 군집, 분류 기능을 처리자바 라이브러리 형태를 가짐 |
|
HCatalog | - 하둡 생태계에서 Map/Reduce, Pig, Hive 같은 상이한 서비스의 메타데이터 관리 서비스 - 서로 다른 서비스에서 데이터를 공유 가능 |
|
Hbase | - Hadoop Database, <Key, Value>구조의 대표적인 NoSQL - HDFS를 기반으로 하며 컬럼 기반의 데이터 베이스 |
|
Avro/Thrift | - 다양한 언어를 지원하는 RPC(Remote Procedure Call) 서버와 데이터를 교환하여 데이터를 직렬화하는 메커니즘을 제공하는 소프트웨어 프레임워크 - 경량 어플리케이션 서버 |
|
Cluster Manager | - 하둡과 수 많은 오픈소스 S/W를 여러 대의 머신에 설치, 관리, 설정 동기화, 모니터 - Ambari (호튼웍스), CM (클라우데라, 상용), JCM (국산) |