Data Object and Attribute Types
1. Data Object
n Data Sets은 Data Object들로 이루어 졌다. 데이터 오브젝트는 entity를 나타내는데 예를 들어서 Students, Professors,Courses 등이 될 수 가 있다.
n 다른 말로는 samples, examples, instances, data points, objects, tuples가 있다.
n Data Object는 Attributes들로 구성되어 있다.
2. Attributes
n 다른 말로 dimentions, features, variables라고 한다.
n 종류들
① Nominal ( 명목형 데이터 )
Ø 심볼이나 사물의 이름을 나타낸다.
Ø Categorical 이라고도 말한다.
② Binary ( 이진 데이터 )
Ø 2가지의 Category만 갖는 nominal 데이터 타입
Ø Boolean 이라고도 말한다.
I. Symmetric(대칭): 두 값이 동등한 중요성을 가질 때, 예를 들어서 남성/여성
II. Asymmetric(비대칭):두 값이 동등한 중요성을 가지지 않을 때, 예를 들어서 병의 음성/양성 판정
③ Ordinal ( 순서형 데이터 ) : Ranking
Ø 데이터간의 순서가 있다(학점:A+,A,B+,B~)
④ Numeric
I. Interval-scaled (간격척도): 순서가 있으면서 positive,0,negative가 되는 데이터를 말한다. 온도계나 달력의 년도
II. Ratio-scaled (비율 척도) : 영점을 가지고 있는 숫자형 데이터. 데이터간의 몇 배인지 나타낼 수 있다. 예를 들어서 weight,height,money,time 등등
⑤ Discrete(이산형)
Ø 연속적이지 않는 데이터로써, 한정되거나 셀수 있는 정도의 무한한 데이터 셋이다. 정수형 데이터나 바이너리 데이터
⑥ Continuous(연속성)
Ø 실수형의 데이터 : 온도, height,weight , 일반적으로 부동소수점 변수를 나타낸다.
3. Central Tendency 측정 (중심집중경향측정)
① Mean (평균) : 데이터들의 평균
n
n
:가중치가 존재할 때는 위의 식으로 계산이 가능하며 weighted average 또는 weighted arithmetic mean이라고 한다.
② Median(중앙값) : 데이터들의 중앙값, 짝(even) 수개이면 가운데 2개의 평균값
③ Mode(최빈수) : 가장 많이 출현하는 값
n 가장 많은 빈도수가 하나 일때는 unimodal, 두개 일때는 bimodal, 세개일때는 trimodal인데 보통 2개 이상을 multimodal이라고 부른다.
④ Midrange:자료의 최대치와 최소치의 절반값
4. 데이터의 분포 측정
① Quartiles
Ø
Ø 사분위수 : 관측값을 작은 순서로 배열했을 때 전체를 사등분하는 값
Ø Q1(25%),Q2(50%:중앙값),Q3(75%)
Ø IQR(사분위수범위) : Q3-Q1로써 두 사분위 사이의 거리를 퍼진 정도의 측도로 사용한다.(Inter-quartile range)
Ø 극단 값에 영향을 받지 않게 되고, 한쪽으로 치우친 분포에서 극단 값을 제외한 퍼진 정도를 알려고 할 때 사용한다.
② Boxplot(상자그림) : 자료로부터 얻는 5가지의 자료를 가지고 그림을 그린다.
Ø
Ø 최솟값,Q1,Q2,Q3,최댓값 (Minimum,Q1,Median,Q3,Maximum)
Ø 작성과정
I. 사분위수를 결정한다.
II. Q1과Q3를 네모난 상자로 연결하고, 중앙값(Q2)의 위치에 수직선을 긋는다.
III. IQR=Q3-Q1을 구한다.
IV. 상자 양끝에서 1.5XIQR 크기의 범위를 경계로 하여, 이 범위에 포함되는 최소값과 최대값을 Q1과 Q3으로부터 각각 선으로 연결한다.
V. 양 경계를 벗어나는 자료값들을 *(outlier)로 표시하고, 이 점들을 이상점이라고 한다.
Ø 상자-수염그림 이라고도 한다.(box-whisker plot)
③ Variance(분산) : 자료가 얼마나 흩어져 있는지를 나타낸다.
Ø
Ø 관측 값에서 평균의 값을 뺀 값의 합의 제곱에 전체 갯수로 나누어 주면 표본분산이 된다.
Ø 관측 값들이 넓게 퍼져 있으면 편차들의 값이 크게 되고, 표본분산이 커짐
Ø 표본분산의 값이 클수록 관측 값들이 표본평균으로부터 멀리 퍼진 것.
④ Standard Deviation(표준편차) : 표준분산에 루트를 씌운값이다.
5. Histogram(히스토그램)
① 자료를 막대그래프 형식으로 나타낸다.
② 파티션분할 방법은 Equal-width(간격동일) 과 Equal-depth(개수동일)
6. Quantile Plot(사분위그림)
① 사분위수를 그래프로 나타낸 그램
② Quantile-Quantile Plot은 두개의 사분위를 X축 Y축으로 배치해서 비교를 할 수 있게 한다.
참고문헌:Data Mining Concepts and Techniques, 3rd Edition, Jiawei Han & Micheline Kamber
저작권 문제가 발생시 삭제될 수 있습니다.
'데이터마이닝 > Basic Concepts' 카테고리의 다른 글
[빅데이터] 6. Bayesian Belief Networks (1) | 2015.06.19 |
---|---|
[빅테이터] 5. Baye’s Classification Methods (1) | 2015.06.18 |
[빅데이터] 4. Data Generalization by Attribute-Oriented Induction (0) | 2015.06.18 |
[빅데이터] 3. Data Transformation and Data Discretization (0) | 2015.06.18 |
[빅데이터] 2. Measuring Data Similarity and Dissimilarity (0) | 2015.04.22 |