[빅데이터] 1. Data Object and Attribute Types

|

Data Object and Attribute Types


1.      Data Object


n  Data Sets Data Object들로 이루어 졌다. 데이터 오브젝트는 entity를 나타내는데 예를 들어서 Students, Professors,Courses 등이 될 수 가 있다.

n  다른 말로는 samples, examples, instances, data points, objects, tuples가 있다.

n  Data Object Attributes들로 구성되어 있다.


2.      Attributes


n  다른 말로 dimentions, features, variables라고 한다.

n  종류들

     Nominal ( 명목형 데이터 )

Ø  심볼이나 사물의 이름을 나타낸다.

Ø  Categorical 이라고도 말한다.

     Binary ( 이진 데이터 )

Ø  2가지의 Category만 갖는 nominal 데이터 타입

Ø  Boolean 이라고도 말한다.

I.       Symmetric(대칭): 두 값이 동등한 중요성을 가질 때, 예를 들어서 남성/여성

II.      Asymmetric(비대칭):두 값이 동등한 중요성을 가지지 않을 때, 예를 들어서 병의 음성/양성 판정

     Ordinal ( 순서형 데이터 ) : Ranking

Ø  데이터간의 순서가 있다(학점:A+,A,B+,B~)

     Numeric

I.       Interval-scaled (간격척도): 순서가 있으면서 positive,0,negative가 되는 데이터를 말한다. 온도계나 달력의 년도

II.     Ratio-scaled (비율 척도) : 영점을 가지고 있는 숫자형 데이터. 데이터간의 몇 배인지 나타낼 수 있다. 예를 들어서 weight,height,money,time 등등

     Discrete(이산형)

Ø  연속적이지 않는 데이터로써, 한정되거나 셀수 있는 정도의 무한한 데이터 셋이다. 정수형 데이터나 바이너리 데이터

     Continuous(연속성)

Ø  실수형의 데이터 : 온도, height,weight  , 일반적으로 부동소수점 변수를 나타낸다.



3.      Central Tendency 측정 (중심집중경향측정)


     Mean (평균) : 데이터들의 평균

n  


n  


:가중치가 존재할 때는 위의 식으로 계산이 가능하며 weighted average 또는 weighted arithmetic mean이라고 한다.

     Median(중앙값) : 데이터들의 중앙값, (even) 수개이면 가운데 2개의 평균값

     Mode(최빈수) : 가장 많이 출현하는 값

n  가장 많은 빈도수가 하나 일때는 unimodal, 두개 일때는 bimodal, 세개일때는 trimodal인데 보통 2개 이상을 multimodal이라고 부른다.

     Midrange:자료의 최대치와 최소치의 절반값



4.      데이터의 분포 측정


     Quartiles

Ø  


Ø  사분위수 : 관측값을 작은 순서로 배열했을 때 전체를 사등분하는 값

Ø  Q1(25%),Q2(50%:중앙값),Q3(75%)

Ø  IQR(사분위수범위) : Q3-Q1로써 두 사분위 사이의 거리를 퍼진 정도의 측도로 사용한다.(Inter-quartile range)

Ø  극단 값에 영향을 받지 않게 되고, 한쪽으로 치우친 분포에서 극단 값을 제외한 퍼진 정도를 알려고 할 때 사용한다.


     Boxplot(상자그림) : 자료로부터 얻는 5가지의 자료를 가지고 그림을 그린다.


Ø  


Ø  최솟값,Q1,Q2,Q3,최댓값 (Minimum,Q1,Median,Q3,Maximum)

Ø  작성과정

I.       사분위수를 결정한다.

II.      Q1Q3를 네모난 상자로 연결하고, 중앙값(Q2)의 위치에 수직선을 긋는다.

III.    IQR=Q3-Q1을 구한다.

IV.    상자 양끝에서 1.5XIQR 크기의 범위를 경계로 하여, 이 범위에 포함되는 최소값과 최대값을 Q1 Q3으로부터 각각 선으로 연결한다.

V.      양 경계를 벗어나는 자료값들을 *(outlier)로 표시하고, 이 점들을 이상점이라고 한다.

Ø  상자-수염그림 이라고도 한다.(box-whisker plot)


     Variance(분산) : 자료가 얼마나 흩어져 있는지를 나타낸다.


Ø  


Ø  관측 값에서 평균의 값을 뺀 값의 합의 제곱에 전체 갯수로 나누어 주면 표본분산이 된다.

Ø  관측 값들이 넓게 퍼져 있으면 편차들의 값이 크게 되고, 표본분산이 커짐

Ø  표본분산의 값이 클수록 관측 값들이 표본평균으로부터 멀리 퍼진 것.


     Standard Deviation(표준편차) : 표준분산에 루트를 씌운값이다.



5.      Histogram(히스토그램)


     자료를 막대그래프 형식으로 나타낸다.

     파티션분할 방법은 Equal-width(간격동일) Equal-depth(개수동일)



6.      Quantile Plot(사분위그림)


     사분위수를 그래프로 나타낸 그램

     Quantile-Quantile Plot은 두개의 사분위를 X Y축으로 배치해서 비교를 할 수 있게 한다.

 


참고문헌:Data Mining Concepts and Techniques, 3rd Edition, Jiawei Han & Micheline Kamber

저작권 문제가 발생시 삭제될 수 있습니다.

And