Jisoo Lim

Jisoo Lim

Post what I study :D

Python,R,JavaScript,Git,GCP SAP,ABAP,Fiori,MM

티스토리 블로그도 운영중:)

자격증 자료+@ 포스팅

아래 Tstory URL로 이동!

빅데이터 기술 이해하기

Updated: January 29, 2020

1. 빅데이터 Software

S/W	설명	비고
하둡 HDFS	- 하둡 분산 파일시스템 - 대용량 데이터를 다수의 데이터노드에 분산하여 저장 (1pb 데이터를 128tb 크기로 쪼개서 저장) - 데이터 가용성을 보장	오픈소스
NoSQL-HBase	- HDFS 기반의 Semi-Structured 데이터 저장소 - 정형 및 비정형 대용량 데이터를 저장	오픈소스
하둡 MapReduce	- HDFS 기반의 대용량 데이터 배치 병렬처리 중심 시스템 - 프레임워크(개발환경)를 제공 - Key, Value 쌍의 데이터 구조(Map)를 사용해 데이터 저장 - 분산된 노드간에 데이터가 이동하는 것이 아닌 소스가 이동하여 데이터를 가공	오픈소스
Hive	- 하둡 기반의 DataWare House, HDFS에 대용량데이터 자동병렬처리 - HiveQL이라는 쿼리 지원 데이터 분석 작업을 수행 - Hive Driver가 Map/Reduce 코드로 변화, 실행하여 분석 작업을 수행	오픈소스
Pig	- Yahoo에서 처음 개발 - 복잡한 Map Reduce 작업을 대체할 Pig Latin 언어로 스크립트를 작성하면 HDFS에 저장된 데이터로 맵리듀스 실행	오픈소스
R	오픈소스 통계 분석 및 시각화 소프트웨어, 리눅스 서버 버전을 지원	오픈소스 상용(RA)
RHadoop	- DFS나 HBase의 데이터를 R에서 사용하도록 지원하는 커넥터 - RMR은 R 함수 맵리듀스 처리	오픈소스
Sqoop	하둡(HDFS,Hive,Hbase)와 RDBMS(Oracle,Mysql)간의 데이터 Import/Export 지원 어플리케이션	오픈소스
Zookeeper	- 하둡기반의 클러스터 분산코디네이터 - HBase의 마스터 데이터 저장 및 리전 서버 관리 지원 - 분산된 각 노드를 관리하고 각 노드 간의 상호 조정을 가능하게 하는 서비스를 담당	오픈소스
Flume	- 대용량 로그 수집 시스템 - Agent-Collector 구성으로 외부 데이터를 수집해서 하둡에 저장	오픈소스
Mahout	- 빅데이터 처리용 기계 학습 라이브러리 - 추천 엔진과 군집, 분류 기능을 처리자바 라이브러리 형태를 가짐
HCatalog	- 하둡 생태계에서 Map/Reduce, Pig, Hive 같은 상이한 서비스의 메타데이터 관리 서비스 - 서로 다른 서비스에서 데이터를 공유 가능
Hbase	- Hadoop Database, <Key, Value>구조의 대표적인 NoSQL - HDFS를 기반으로 하며 컬럼 기반의 데이터 베이스
Avro/Thrift	- 다양한 언어를 지원하는 RPC(Remote Procedure Call) 서버와 데이터를 교환하여 데이터를 직렬화하는 메커니즘을 제공하는 소프트웨어 프레임워크 - 경량 어플리케이션 서버
Cluster Manager	- 하둡과 수 많은 오픈소스 S/W를 여러 대의 머신에 설치, 관리, 설정 동기화, 모니터 - Ambari (호튼웍스), CM (클라우데라, 상용), JCM (국산)

2. 빅데이터 라이프사이클

Share on

Twitter Facebook LinkedIn

You may also enjoy

Introduction to Pipeline Step

March 29 2023

1. Pipeline Steps CPI(Cloud Platform Integration)은 아래와 같이 구성되어 있다. Pools = Design Message Transformers Message Routing Message Validators Messag...

Advanced Event Mesh

March 28 2023

1. Advanced Event Mesh SAP Integration Suite, Advanced Event Mesh는 기업의 이벤트 기반 아키텍처를 지원하기 위해 이벤트 스트리밍 및 이벤트 관리 서비스를 제공하는 솔루션으로 아래의 기능을 제공한다. 다양한 클라우드 및 온...

Introduction to SAP Integration Suite

March 27 2023

1. Integration Suite & Process Orchestration Integration Suite와 Process Orchestration의 차이는 아래와 같다. SAP Integration Suite SAP Cloud, 3rd P...

SAP Young Next Cloud Academy 후기

March 25 2023

SAP Young Next Cloud Academy 후기 최근에 SAP Young Next Cloud Academy, 일명 SYNC 3기 모집이 시작됬다고 들어서 올려보는 교육과정 후기이다. 정확하게 말하면 본인은 SYNC가 아닌, 동일한 내용으로 진행한 혁신성장 청년인재 집중...