본문 바로가기

빅데이터분석기사 정보

빅데이터분석기사 필기 자주 나오는 개념 정리 (데이터 전처리 핵심)

빅데이터분석기사 필기 시험에서는 데이터 전처리(Data Preprocessing) 관련 개념이 자주 출제됩니다.
데이터 분석이나 머신러닝 모델을 만들기 전에는 데이터를 정리하고 가공하는 과정이 필요합니다.

 

이 과정을 데이터 전처리라고 하며, 실제 데이터 분석 과정에서 매우 중요한 단계입니다.

특히 빅데이터분석기사 필기 시험에서는 다음과 같은 전처리 개념이 반복적으로 등장합니다.

  • 결측값 처리
  • 이상치 탐지
  • 정규화 (Normalization)
  • 표준화 (Standardization)
  • 범주형 데이터 인코딩

이번 글에서는 빅데이터분석기사 필기 시험에서 자주 출제되는 데이터 전처리 핵심 개념을 정리해보겠습니다.

데이터 전처리(Data Preprocessing)란?

데이터 전처리는 데이터 분석이나 머신러닝 모델 학습 전에 데이터를 정리하고 가공하는 과정을 의미합니다.

현실 데이터는 대부분 완전하지 않은 상태로 존재하기 때문에 분석 전에 데이터를 정리하고 품질을 높이는 과정이 필요합니다.

 

대표적으로 다음과 같은 문제가 발생합니다.

  • 결측값 존재
  • 이상치 포함
  • 중복 데이터
  • 데이터 형식 오류

이러한 문제를 해결하는 과정이 바로 데이터 전처리입니다.

전처리가 제대로 이루어지지 않으면 머신러닝 모델 성능이 크게 떨어질 수 있습니다.

결측값(Missing Value)

결측값은 데이터 값이 존재하지 않는 상태를 의미합니다.

데이터 분석 과정에서 가장 흔하게 발생하는 문제 중 하나이며 빅데이터분석기사 필기 시험에서도 자주 등장하는 개념입니다.

결측값 발생 원인

  • 데이터 수집 오류
  • 설문 응답 누락
  • 시스템 오류
  • 센서 데이터 누락

결측값 처리 방법

대표적인 결측값 처리 방법은 다음과 같습니다.

  • 결측 데이터 삭제 (행 삭제)
  • 평균값으로 대체
  • 중앙값으로 대체
  • 최빈값으로 대체
  • 회귀모델을 이용한 예측 대체

시험에서는 특히 평균, 중앙값, 최빈값 차이와 결측값 처리 방법이 자주 출제됩니다.

이상치(Outlier)

이상치는 일반적인 데이터 범위를 크게 벗어난 값을 의미합니다.

이상치는 통계 분석 결과를 왜곡시킬 수 있기 때문에 데이터 분석 과정에서 탐지하고 처리하는 과정이 필요합니다.

 

예를 들어 평균 월급이 300만 원인 데이터에서 한 사람이 1억 원을 받는다면 평균 값이 크게 왜곡됩니다.

대표적인 이상치 탐지 방법

  • IQR (사분위 범위)
  • Z-score
  • Box Plot

이상치 처리 방법

  • 이상치 제거
  • 데이터 변환
  • 평균값 등으로 대체

빅데이터분석기사 필기 시험에서는 IQR 기준과 이상치 탐지 방법이 중요하게 출제됩니다.

정규화(Normalization)

정규화는 데이터 값의 범위를 일정한 범위로 변환하는 과정입니다.

데이터마다 단위가 다르면 머신러닝 모델 학습에 영향을 줄 수 있기 때문에 데이터 스케일을 맞추는 과정이 필요합니다.

 

대표적인 정규화 방법은 Min-Max Scaling입니다.

Min-Max Scaling 공식

(X - 최소값) / (최대값 - 최소값)

정규화 후 데이터 범위는 0 ~ 1 사이로 변환됩니다.

표준화(Standardization)

표준화는 데이터를 평균과 표준편차 기준으로 변환하는 방법입니다.

 

표준화된 데이터의 특징은 다음과 같습니다.

  • 평균 = 0
  • 표준편차 = 1

Z-score 공식

Z = (X - 평균) / 표준편차

표준화는 다음과 같은 머신러닝 알고리즘에서 자주 사용됩니다.

  • SVM
  • 로지스틱 회귀
  • 신경망

빅데이터분석기사 필기 시험에서는 정규화와 표준화의 차이가 자주 출제됩니다.

범주형 데이터 인코딩

머신러닝 모델은 문자 데이터를 직접 처리할 수 없기 때문에
범주형 데이터를 숫자로 변환하는 과정이 필요합니다.

 

이를 **범주형 데이터 인코딩(Categorical Encoding)**이라고 합니다.

대표적인 방법

Label Encoding

남 → 0
여 → 1

 

One-hot Encoding

남 → [1,0]
여 → [0,1]

One-hot encoding의 장점은 범주 간 순서 관계가 생기지 않는 것입니다.

데이터 전처리 과정 정리

데이터 분석에서는 일반적으로 다음과 같은 전처리 과정을 거칩니다.

1️⃣ 결측값 처리
2️⃣ 이상치 처리
3️⃣ 데이터 스케일링 (정규화 / 표준화)
4️⃣ 범주형 데이터 인코딩

이러한 과정을 통해 데이터를 머신러닝 모델에 사용할 수 있습니다.

빅데이터분석기사 필기 시험 핵심 정리

빅데이터분석기사 필기 시험에서는 다음 전처리 개념이 자주 등장합니다.

  • 결측값 처리 방법
  • 이상치 탐지 방법
  • 정규화 vs 표준화 차이
  • 범주형 데이터 인코딩

데이터 전처리는 머신러닝 모델 성능을 크게 좌우하는 핵심 과정이기 때문에 시험 준비 시 반드시 정리해 두는 것이 좋습니다.


2026년 최신 기출 경향 반영! 최다 기출문제 수록

🩵 2026 이기적 빅데이터분석기사 필기 바로가기 :

2026 이기적 빅데이터분석기사 필기 기본서 | 나홍석 | 영진닷컴 - 예스24

 

2026 이기적 빅데이터분석기사 필기 기본서 | 나홍석 | 영진닷컴 - 예스24

최신 기출문제 완벽 분석! 빅분기 합격을 위한 기본 지침서!본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습

www.yes24.com

💚 빅데이터분석기사 자격증에 관한 더 많은 정보는 이기적스터디카페에서!

https://cafe.naver.com/yjbooks

 

이기적 스터디 카페_컴활,정보처리,워... : 네이버 카페

이렇게 기막힌 적중률! 이기적 자격증(컴활,정보처리,데이터,워드,ITQ,GTQ등) 온라인 스터디 카페!

cafe.naver.com

♥️ 자격증 관련 다양한 정보는 이기적 인스타그램에서!

https://www.instagram.com/license.youngjin_official/

 

반응형