빅데이터 이해하기
Updated:
1. 빅데이터의 등장
IT에서 패러다임이 바뀌게 되는 중요한 사건들애는 1980년 초 PC 등장, 1990년 초 www internet 등장, 2007년 smart phone 등장 (외국에서는 스마트폰을 사용할 때, 한국은 아직 준비가 되지 않은 시기로 2년정도 나름의 쇄국정책을 취했음) 과 같은 것들이 있다. 이 때 부터 정보 저장능력이 정보 발생량을 감당할 수 없는 상태가 되고, big data라는 신조어가 등장하게 되었다. 초기의 정의는 단순하게 ‘규모가 큰 데이터’ 였다. 그 내부에서 비즈니스 적인 가치를 얻고자 하면서 다양성 (정형, 반정형, 비정형)과 같은 의미를 부여하게 되었다. 빅데이터를 통해 얻고자 하는 것은 insight, 변화에 대한 예측이라는 점 잊지말자.
기존 3V 정의에서 최근에는 6V로 정의되고 있다. 지구상에선 지금 이 순간에도 방대한 크기(Volume)의 다양한 (Varity) 데이터들이 빠른 속도(Velocity)로 발생하고 있다. 빅 데이터는 3V(Volumn, Varity, Velocity)를 수용하며, 데이터의 진실성(Veracity)를 확보하고, 분석 데이터를 시각화(Visualization)함으로써 새로운 효익을 가져다 줄 가치(Value)를 창출하는 것이다.
- 크기(Volume) : 방대한 양의 데이터
- 다양성(Varity) : 정형(DBMS, 전문 등) + 비정형(SNS, 동영상, 사진, 음성, 텍스트 등)
- 속도(Velocity) : 실시간으로 생산되며, 빠른 속도로 데이터를 처리 및 분석
- 진실성(Veracity) : 주요 의사결정을 위해 데이터 품질과 신뢰성 확보
- 시각화(Visualization) : 복잡한 대규모 데이터를 시각적으로 표현
- 가치(Value) : 비즈니스 효익을 실현하기 위해 궁극적인 가치를 창출
2. 데이터의 종류와 특징
종류 | 특징 |
---|---|
정형 데이터 Structured |
- 규격화되어 고정된 컬럼에 저장되는 데이터 - 내부 시스템 경우가 대부분이라 수집이 쉽고 처리도 쉬움 - 내부 데이터 특성상 현실적 가치의 한계 및 잠재적 가치는 낮음 |
반정형 데이터 Semi-Structured |
- 데이터 내부에 데이터 구조에 대한 메터정보를 가짐 : 데이터 형태 파악 필요 - 보통 API 형태로 제공되기에 데이터 처리 기술 요구됨 - 데이터 잠재적 가치는 정형 데이터보다 높음 |
비정형 데이터 Unstructured |
- 데이터 셋이 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음 - 데이터 탐색을 위해서는 데이터 종류별 프로그램을 이용 예: 동영상 플레이어 - 수집이 어려우나 수집이 가능하면 가장 높은 잠재적 가치를 지님 |
3. 데이터와 빅데이터의 차이점
구분 | 기존 데이터 | 빅데이터 |
---|---|---|
데이터 양 | 테라바이트 수준 (저장이 아닌 처리가능 단위) |
페타바이트 이상 |
데이터 유형 | 정형 데이터 중심 | 비정형, 반정형 데이터 중심 ( 동영상, 로그 파일, 소셜 미디어 등) |
프로세스 및 기술 | - 처리 과정과 기술이 상대적으로 단순함 - 정형화된 과정 - 데이터 분석은 인과관계 중심 |
- 데이터의 형태 때문에 처리 복잡도가 높음 - 데이터 분석은 상관관계 중심 |
4. 빅데이터의 가치
비즈니스 분야의 빅데이터 가치로는 수익개선, 고객확보, 비용절감, 새로운 비즈니스 창출 (추천 시스템, 클릭률 기반 마케팅) 등이 있으며, 공공서비스 분야의 빅데이터 가치는 국정 현안 사전 대응, 변화 및 위험 징후 파악 시간 단축, 경제, 복지, 안전, 고령화 등 국가 현안에 합리적, 적극적으로 대응하는 예방행정 체계 강화 (범죄발생 최소화, 자연재해의 조기 감지와 대응, 교통사고의 감소) 등이 있다. 또한 약 10년동안 정체되어 있던 인공지능 AI 분야의 급속한 발전의 기반에는 빅데이터 처리가 있다.