데이터 처리 및 분석
Updated:
1. EDA & CDA
현재까지 학습한 부분이 해당된다. R 프로그램과 Python 프로그램으로 EDA를 진행했으며, 프로젝트에 대한 부분은 EDA및 CDA를 포함하는 과정이었다.
2. EDA를 위한 프로그램 학습
- R과 Python은 무엇인가?
- 각 프로그램의 데이터 타입, 자료구조, 함수, 라이브러리
3. EDA(탐색적 데이터 분석)
- Exploratory Data Analysis
- 데이터가 어떠한 형태로 되어있는지 확인하고, 어떠한 feature(변수, 컬럼)로 존재하는지 탐색하는 과정
- 전처리 작업을 수행할 수 있게 함 - Data Pre Processing - Feature Engineering Feature(특징: 컬럼) 선택의 방향성 설정
- 예시 제품에 대한 소비자 트랜드(경향)을 이해하기 위해 사용하는 기법
4. CDA(확증적 데이터 분석)
- Confirmatory Data Analysis
- 데이터 속에서 새로운 관점, 주장하는 바의 논거를 찾아내는 방식
- EDA가 선행되어야 함
- 예시 마케팅 제안서에 자신의 주장을 뒷받침하기 위해 데이터를 조사한 후, 결과를 설명하는 기법
5. 통계적 기법을 이용한 데이터 분석
통계적 기법을 이용한 데이터 분석은 크게 2가지로 분류된다.
- 기술통계
- 추리(추론)통계
기술통계
- Descriptives Statistics
- 수집한 데이터를 요약, 묘사, 설명하는 통계 기법을 의미
- 2가지 기법을 이용하여 데이터를 처리 - 집중화 경향에 대한 분석(평균, 중앙값, 최빈값 등) - 분산도에 따른 경향 분석(표준편차, 사분위 등)
- 예시 우리나라 1인당 국민소득을 이용한 소득불균형 확인
추리통계
- Inferential Statistics
- 수집한 데이터를 기반으로 어떠한 사실을 예측(추론)하고 검정하는데 사용하는 통계 기법
- 통계적 가설 검정 기법 - Statistical Hypothesis Testing - 표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞는지를 통계적으로 검증하는 분석 방법 - 여러가지 통계적 가설 검정 기법 존재 Regression(회귀분석) 빈도분석 평균분석 상관분석