Measuring Data Similarity and Dissimilarity
1. Similarity and Dissimilarity
① 유사성
n 두개의 데이터가 얼마나 유사한지에 대한 수적인 측정.
n 보통 0~1 사이의 값에 속한다.
n 값이 높을수록 더 비슷하다는 것을 나타냄
② 비유사성(거리)
n 두개의 데이터가 얼마나 다른지에 대한 수적인 측정
n 값이 낮을수록 더 비슷하다는 것을 나타냄
n 비유사성의 최소값은 0이다
n Upper limit은 다양하다
③ Proximity(가까움)는 유사성 또는 비 유사성을 말한다.
2. Data Matrix and Dissimilarity Matrix
n
n 비유사성은 위의 메트릭스를 이용한다. 한쪽 면만 있는 이유는 반대쪽은 아래쪽과 같은 결과가
나오기 때문에 한쪽면만 계산해주면 된다.
3. Measure For Nominal Attributes Proximity (명목형 속성의 가까움 측정)
① 명목형 데이터의 상태가 2개 이상일 때 적용된다.
② 각각의 거리의 계산은 d(i,j)는 아래의 식으로 계산이 된다.
③
④ 여기서 p는 속성의 총 개수, m은 일치하는 개수다.
⑤ 예제
n
n Test-1의 Attribute의 비유사성은 아래와 같은 메트릭스를 갖는다.
n
n 각각의 식은 d(4,1)만 동일한 값이므로, 0이 되고 나머지는 1이된다.
n
4. Measure For Binary Attributes Proximity
① 두 가지의 상태만 가진것의 가까운정도를 측정할 때 사용한다.
② 속성의 상태 중에서 남자/여자 와 같은것은 symmetric binary variables라 하고 예/아니오 와 같은 것은 asymmetric binary variables라고 한다.
③ 분할표는 아래와 같다
④ Symmetric binary dissimilarity(대칭형 이진 비유사성)
n
⑤ Asymmetric binary dissimilarity(비대칭형 이진 비유사성)
n
n 비대칭형 이진데이터는 두개의 상태가 동일한 중요성을 갖고 있지 않는다. 두값이 모두다 negative한 데이터인 t는 무시해버린다.
⑥ Asymmetric binary simmilarity(비대칭형 이진 유사성)
n
⑦ 예제
n
n 여기서 gender는 대칭형이고 나머지는 비대칭형이다. Y와 P는 1로 보고 N은 0으로 설정한다.
n
5. Measure For Numeric Attributes Proximity
① 숫자형 데이터의 가까움 정도를 측정하는 것은 3가지의 방법이 존재한다. Euclidean,manhattan,supremum이다. 유클리안과 맨하탄 방법을 민코스키(Minkowski)가 일반화 시킨 것이 Minkowski distance이다, supremum은 민코스키의 식에서 노름(norm)이 무한대로 갈 때의 식을 정리했다. 슈프리멈은 두지점사이의 절대값은 최대값을 의미한다.
② Euclidean distance
n
n 보통 직선거리를 의미한다(피타고라스의 정리와 같음)
③ Manhattan(or city block) distance
n
n 이것은 도로에서 해당 지점까지 직선으로 못 가는 경우에 해당한다.
④ Supremum distance
n
n 즉, 각각의 거리차에서 가장 큰 것을 선택한다.
⑤ Minkowsky distance
n 민코스키가 유클리안 과 맨하탄 식을 일반화 시킴
n h값이 1이면 맨하탄 거리가 되고, 2이면 유클리드 거리, 무한대면 슈프리멈 거리가 된다.
n
⑥ 예제
n
6. Measure For Ordinal Attributes Proximity
n 처리방법(3Step)
① 해당 속성의 상태들을 1부터 M 까지 순서를 매긴다
상태가 fair(1),good(2),excellent(3) 이렇게 숫자로 변환해준다.
② [0,1] 범주에 들도록 일반화 한다.
여기서 Mf는 상태의 총합이며(3) rif는 상태 값이다.
이렇게 계산되면 Fair 는 0으로, good은 0.5로 excellent는 1로 계산된다.
③ 유클리드 거리법으로 계산한다. (일반화 된 값을 뺀 후 제곱에 루트값)
7. Measure For Mixed Type Proximity
① 여러가지 타입의 속성을 비교할 때는 각각의 타입에 맞는 식으로 계산한 후에
각각의 메트릭스를 다시 통합해준다.
②
n Numeric
:두 속성의 차이에 해당 속성의 최대값에서 최소값을 뺀 값으로 나눈다.
n Binary
: 두 값이 같으면 0이고 그렇지 않으면 1이 된다.
n Ordinal
:6번 항목에서 나온 그 식으로 계산해준다.
③ 여기서
n 만약 비교하는 i,j 값 둘 중 하나가 없거나(missing value), 비교하는 값이 둘다 0인 동시에 asymmetric binary 일때는 0이되고, 다른 경우는 1이된다.
④ 구해진 메트릭스의 같은 행과 열에 있는 것들의 평균을 구해서 하나의 메트릭스로 생성해준다.
8. Cosine Similarity
① Document 문서와 같은 것들은 수천개 이상의 attributes들이 존재한다.
이것들의 유사성을 구하는데 코사인을 사용한다.
②
③ 여기서 분모의 식은 각각 x,y의 속성끼리의 곱의 합이며, ||x||는 x의 각 값의 제곱에 합의 루트를 씌운값이다.(유클리드 거리)
④ 예제 (Document1 과 Document2와 비교)
n
n
참고문헌:Data Mining Concepts and Techniques, 3rd Edition, Jiawei Han & Micheline Kamber
저작권 문제가 발생시 삭제될 수 있습니다.
'데이터마이닝 > Basic Concepts' 카테고리의 다른 글
[빅데이터] 6. Bayesian Belief Networks (1) | 2015.06.19 |
---|---|
[빅테이터] 5. Baye’s Classification Methods (1) | 2015.06.18 |
[빅데이터] 4. Data Generalization by Attribute-Oriented Induction (0) | 2015.06.18 |
[빅데이터] 3. Data Transformation and Data Discretization (0) | 2015.06.18 |
[빅데이터] 1. Data Object and Attribute Types (0) | 2015.04.15 |