빅데이터 이해하기

Updated:

1. 빅데이터의 등장

IT에서 패러다임이 바뀌게 되는 중요한 사건들애는 1980년 초 PC 등장, 1990년 초 www internet 등장, 2007년 smart phone 등장 (외국에서는 스마트폰을 사용할 때, 한국은 아직 준비가 되지 않은 시기로 2년정도 나름의 쇄국정책을 취했음) 과 같은 것들이 있다. 이 때 부터 정보 저장능력이 정보 발생량을 감당할 수 없는 상태가 되고, big data라는 신조어가 등장하게 되었다. 초기의 정의는 단순하게 ‘규모가 큰 데이터’ 였다. 그 내부에서 비즈니스 적인 가치를 얻고자 하면서 다양성 (정형, 반정형, 비정형)과 같은 의미를 부여하게 되었다. 빅데이터를 통해 얻고자 하는 것은 insight, 변화에 대한 예측이라는 점 잊지말자.
기존 3V 정의에서 최근에는 6V로 정의되고 있다. 지구상에선 지금 이 순간에도 방대한 크기(Volume)의 다양한 (Varity) 데이터들이 빠른 속도(Velocity)로 발생하고 있다. 빅 데이터는 3V(Volumn, Varity, Velocity)를 수용하며, 데이터의 진실성(Veracity)를 확보하고, 분석 데이터를 시각화(Visualization)함으로써 새로운 효익을 가져다 줄 가치(Value)를 창출하는 것이다.

  • 크기(Volume) : 방대한 양의 데이터
  • 다양성(Varity) : 정형(DBMS, 전문 등) + 비정형(SNS, 동영상, 사진, 음성, 텍스트 등)
  • 속도(Velocity) : 실시간으로 생산되며, 빠른 속도로 데이터를 처리 및 분석
  • 진실성(Veracity) : 주요 의사결정을 위해 데이터 품질과 신뢰성 확보
  • 시각화(Visualization) : 복잡한 대규모 데이터를 시각적으로 표현
  • 가치(Value) : 비즈니스 효익을 실현하기 위해 궁극적인 가치를 창출



2. 데이터의 종류와 특징

종류 특징
정형 데이터
Structured
- 규격화되어 고정된 컬럼에 저장되는 데이터
- 내부 시스템 경우가 대부분이라 수집이 쉽고 처리도 쉬움
- 내부 데이터 특성상 현실적 가치의 한계 및 잠재적 가치는 낮음
반정형 데이터
Semi-Structured
- 데이터 내부에 데이터 구조에 대한 메터정보를 가짐 : 데이터 형태 파악 필요
- 보통 API 형태로 제공되기에 데이터 처리 기술 요구됨
- 데이터 잠재적 가치는 정형 데이터보다 높음
비정형 데이터
Unstructured
- 데이터 셋이 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음
- 데이터 탐색을 위해서는 데이터 종류별 프로그램을 이용
예: 동영상 플레이어
- 수집이 어려우나 수집이 가능하면 가장 높은 잠재적 가치를 지님



3. 데이터와 빅데이터의 차이점

구분 기존 데이터 빅데이터
데이터 양 테라바이트 수준
(저장이 아닌 처리가능 단위)
페타바이트 이상
데이터 유형 정형 데이터 중심 비정형, 반정형 데이터 중심
( 동영상, 로그 파일, 소셜 미디어 등)
프로세스 및 기술 - 처리 과정과 기술이 상대적으로 단순함
- 정형화된 과정 - 데이터 분석은 인과관계 중심
- 데이터의 형태 때문에 처리 복잡도가 높음
- 데이터 분석은 상관관계 중심



4. 빅데이터의 가치

비즈니스 분야의 빅데이터 가치로는 수익개선, 고객확보, 비용절감, 새로운 비즈니스 창출 (추천 시스템, 클릭률 기반 마케팅) 등이 있으며, 공공서비스 분야의 빅데이터 가치는 국정 현안 사전 대응, 변화 및 위험 징후 파악 시간 단축, 경제, 복지, 안전, 고령화 등 국가 현안에 합리적, 적극적으로 대응하는 예방행정 체계 강화 (범죄발생 최소화, 자연재해의 조기 감지와 대응, 교통사고의 감소) 등이 있다. 또한 약 10년동안 정체되어 있던 인공지능 AI 분야의 급속한 발전의 기반에는 빅데이터 처리가 있다.