본문 바로가기

IT 정보

수집한 데이터, 적절하게 입력하는 방법!

 

 

데이터 분석, 목적이 명확해야 성공한다!

Q. 데이터 분석의 출발점은? 데이터 수집과 분석의 중요성은 누구나 이해하고 있을 겁니다. 게다가 데이터 분석에는 목적이 있을 거라는 것도 어렴풋이 알고 있겠죠. 당연하게도 목적이 모호하

ydot.tistory.com

위 포스팅에서는 데이터 분석에 어떻게 착수해야 하는지 목적부터 살펴보았습니다. 이번에는 눈앞에 있는 데이터로부터 데이터 분석에 접근해 봅시다.

 


‘어느 회사의 연봉 테이블 데이터’를 알아볼까요? 

 

<엑셀로 시작하는 데이터과학 실무> 중 도표 1-4 어느 회사의 연봉 테이블 데이터

 

위 도표를 연봉 테이블 데이터라고 불러도 대부분은 아무런 의문을 품지 않을 겁니다. 그러나 사실 이 표는 데이터 그 자체가 아니라 집계된 결과입니다. 원래의 데이터는 아래 도표입니다. 

 

<엑셀로 시작하는 데이터과학 실무> 중 도표 1-5 연봉을 집계하기 위해 사용한 원래의 데이터

 

데이터를 분석하기 위해서는 데이터 형식의 차이를 명확하게 이해하여 데이터가 어떤 것인지를 알아둘 필요가 있습니다. 분석 목적이나 관점이 명확해지면 수집하는 데이터의 형식도 거의 결정됩니다. Excel 등의 소프트웨어를 사용해 분석을 시행하려면 분석에 적합한 형식의 데이터를 입력하는 것이 작업의 출발점입니다.


그렇다면 데이터 형식이란 건 뭘까요? 아주 간단합니다. 한 건의 데이터를 1행에 입력한다. 《엑셀로 시작하는 데이터과학 실무》 책에서는 Excel로 진행하지만 Access 등 다른 애플리케이션 프로그램을 사용할 때도 마찬가지입니다. 다만 한 건의 데이터가 무엇을 가리키는지를 제대로 이해하지 못하면 데이터를 올바르게 입력할 수 없습니다. 그래서 구체적인 예시로 한 건의 데이터를 알아보고 직접 입력해봅시다.

 

 

  • 조사한 데이터를 입력하려면

아래 도표처럼 조사표를 사용해 인터넷 이용 시간에 관한 설문조사를 실시했다고 생각해봅시다.

 

<엑셀로 시작하는 데이터과학 실무> 중 도표 1-6 수집한 설문 조사표(사람 수 만큼)

 

이 경우에 한 사람분의 조사 결과인 조사표 한 장이 한 건의 데이터입니다. 한 건의 데이터인 조사표에 No., 성별, 나이, 이용 시간이라는 세부항목이 있는 것이죠.

 

더보기

통계 레시피 조사표의 데이터를 Excel의 워크시트에 입력해봅시다.


방법 | 한 건의 데이터는 한 행에 입력한다.
유의할 점 | 설문조사 등의 데이터에는 1장의 조사표에 한 건의 데이터가 기록되어 있다. 다만, 항목 수가 많은 경우에는 여러 장의 조사표에 한 건의 데이터가 기록되어 있기도 하다.

 

설문조사 결과를 워크시트에 입력한 데이터가 아래 이미지입니다. 설문조사 용지 내용과 비교해서 한 줄에 어떤 항목이 있고 어떤 데이터가 입력되어 있는지를 확인하세요.

 

 

<엑셀로 시작하는 데이터과학 실무> 중 도표 1-7 한 건의 데이터는 1행에 입력한다

 

 

도표 1-6의 설문조사처럼 항목 수가 적을 때는 한 장의 조사표에 한 건의 데이터를 기록할 수 있지만, 항목 수가 매우 많은 경우는 여러 장의 조사표가 한 건의 데이터가 되기도 합니다. 샘플이란 전체 데이터에서 추출한 표본 데이터입니다. 어떤 경우이든 각 조사 데이터는 한 건의 데이터입니다.

 

<지식 더하기!>

더보기

설문조사의 <함정>에 주의하자!


설문조사 결과는 수치로 나타낼 수 있으므로 근거가 확실하지 않은 주관적인 주장과 달리 신뢰성이 높다고들 여깁니다. 그러나 조사 방법에 따라서 실태가 반영되지 않은 결과가 나올 때도 많아 주의가 필요합니다.
이 책은 가상의 데이터를 활용하기 때문에 그러한 영향이 나타나지는 않지만, 예를 들어 산업단지의 거리에서 실시한 설문조사와 패션 거리에서 실시한 설문조사는 결과가 다를 가능성이 큽니다. 주택가라면 또 다를 겁니다. 애초에 설문조사에 응답하는 사람과 응답하지 않는 사람의 차이가 있을 수도 있겠죠. 다수의 데이터를 모으고 싶다고 해서 인터넷에서 설문조사를 실시하면 컴퓨터나 인터넷 사용법에 익숙한 사람의 답변밖에 얻지 못하거나 흥미가 없는 사람에게는 답변을 얻지 못할 겁니다.
이러한 샘플의 편중을 바이어스라고 부릅니다. 조사할 때나 분석 결과를 해독할 때도 바이어스를 염두해야 합니다. 목적에 따라 특정 샘플을 수집하는 경우도 있지만, 보통은 무작위로 샘플을 고르는 것이 이상적입니다.

 

 

《엑셀로 시작하는 데이터과학 실무》

 

예스24  /  교보문고  /  알라딘  /  인터파크

 

반응형