데이터 처리 및 분석

Updated:

1. EDA & CDA

현재까지 학습한 부분이 해당된다. R 프로그램과 Python 프로그램으로 EDA를 진행했으며, 프로젝트에 대한 부분은 EDA및 CDA를 포함하는 과정이었다.



2. EDA를 위한 프로그램 학습

  • R과 Python은 무엇인가?
  • 각 프로그램의 데이터 타입, 자료구조, 함수, 라이브러리



3. EDA(탐색적 데이터 분석)

  • Exploratory Data Analysis
  • 데이터가 어떠한 형태로 되어있는지 확인하고, 어떠한 feature(변수, 컬럼)로 존재하는지 탐색하는 과정
  • 전처리 작업을 수행할 수 있게 함 - Data Pre Processing - Feature Engineering Feature(특징: 컬럼) 선택의 방향성 설정
  • 예시 제품에 대한 소비자 트랜드(경향)을 이해하기 위해 사용하는 기법



4. CDA(확증적 데이터 분석)

  • Confirmatory Data Analysis
  • 데이터 속에서 새로운 관점, 주장하는 바의 논거를 찾아내는 방식
  • EDA가 선행되어야 함
  • 예시 마케팅 제안서에 자신의 주장을 뒷받침하기 위해 데이터를 조사한 후, 결과를 설명하는 기법



5. 통계적 기법을 이용한 데이터 분석

통계적 기법을 이용한 데이터 분석은 크게 2가지로 분류된다.

  • 기술통계
  • 추리(추론)통계


기술통계

  • Descriptives Statistics
  • 수집한 데이터를 요약, 묘사, 설명하는 통계 기법을 의미
  • 2가지 기법을 이용하여 데이터를 처리 - 집중화 경향에 대한 분석(평균, 중앙값, 최빈값 등) - 분산도에 따른 경향 분석(표준편차, 사분위 등)
  • 예시 우리나라 1인당 국민소득을 이용한 소득불균형 확인


추리통계

  • Inferential Statistics
  • 수집한 데이터를 기반으로 어떠한 사실을 예측(추론)하고 검정하는데 사용하는 통계 기법
  • 통계적 가설 검정 기법 - Statistical Hypothesis Testing - 표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞는지를 통계적으로 검증하는 분석 방법 - 여러가지 통계적 가설 검정 기법 존재 Regression(회귀분석) 빈도분석 평균분석 상관분석