임블록의 Web3.0 도전기

Let's make blockchain Good Again!

독서/스타트업_독서노트

빅데이터 분석 첫걸음, ① 데이터의 종류란 무엇이 있는가?

임블록의 도전 2021. 5. 13. 17:34
반응형

안녕하세요, 스타텁에서 일하고 있는 코딱지입니다.

 

오늘은 이 책을 들고와보았습니다.

 

 

신한은행에서는 빅데이터를 활용해 25,000개의 세그먼트로

고객을 나누고 초개인화 서비스를 제공한다고 밝혔습니다.

관련기사 : www.shinhancard.com/pconts/company/html/promotion/press/1530083_54362.html

모두 빅데이터와 이 데이터를 처리하여 분석하는 것인데요.

이 목적은 다름이 아닌 "더 나은 의사결정" 이라는 것.

 

신용정보법 개정 추진, 오픈뱅킹 전면시행 등 금융권에 빅데이터를 활용할 수 있는 제도적 환경이 개선되며

다양한 분야에서 발생하는 데이터를 가공하여 활용하는 모습이 더 커지고 있습니다.

 

이에 대해 프라이버시 이슈와 개인정보 보호법적인 이슈도 언젠간 같이 한번 논하고 싶네요.

 


그럼 가장 시작하면서,

 

빅데이터를 구성하는 데이터의 종류부터 먼저 알아봅시다.


1. 데이터란?

 

혹시, 이 피라미드 보셨나요?

 

우리가 지혜를 얻기 위해선 가장 하윗단에 있는 것이 '데이터'입니다.

 

이에서 보듯이

데이터는 정리되고 가공되지 않은

raw한 상태의 데이터 그 자체를 의미합니다.

 


2. 데이터의 종류

데이터에는 크게 범주형 변수(질적 변수)연속형 변수(양적 변수)가 있습니다.

 

범주형 변수는 크게 두가지 척도로 나뉩니다.

(1) 명목 척도란
관찰하는 대상의 속성에 따라 그 값을 숫자로 나타냄
(한그룹에 속하면 다른 그룹에는 속하지 않는 배타적 속성이 있음)
남자 1, 여자 2


(2) 서열 척도란
관찰하는 대상의 특성을 측정해 그 값을 숫자로 나타냄
(값 차이는 존재하지만 어느정도 차이인지 알 수 없음)
예 : 수학점수 1등, 2등, 3등

 

연속형 변수는 등간 척도와 비율 척도로 나뉘어져 있습니다.

 

(1) 등간 척도란

관찰하는 대상의 크기를 상대적인 크기로 나타내었습니다.

지금 만족하십니까에 대한 대답에 1(아니요) 5(그렇다)로 표기하는 것이 그 예입니다.

 

(2) 비율척도

절대적인 기준이 있는 0이 존재하며,

예를들어 대표적으로 무게, 길이, 넓이 등이 있습니다.

 


이런 데이터를 모아서 바로 분석하나요?

 

아니요! 데이터 분석 프로세스가 있습니다.

 

자세한 내용이 알고싶다면 책을 참고해주세요!

 

다음시간에는 그 프로세스와 데이터 전처리에 대해서 알아보겠습니다.

 

 

그럼 빠2

반응형