[빅데이터] 2. Measuring Data Similarity and Dissimilarity

|

Measuring Data Similarity and Dissimilarity


1.      Similarity and Dissimilarity


     유사성


n  두개의 데이터가 얼마나 유사한지에 대한 수적인 측정.

n  보통 0~1 사이의 값에 속한다.

n  값이 높을수록 더 비슷하다는 것을 나타냄


     비유사성(거리)


n  두개의 데이터가 얼마나 다른지에 대한 수적인 측정

n  값이 낮을수록 더 비슷하다는 것을 나타냄

n  비유사성의 최소값은 0이다

n  Upper limit은 다양하다


     Proximity(가까움)는 유사성 또는 비 유사성을 말한다.

 

2.      Data Matrix and Dissimilarity Matrix


n        

  

n  비유사성은 위의 메트릭스를 이용한다. 한쪽 면만 있는 이유는 반대쪽은 아래쪽과 같은 결과가

 나오기 때문에 한쪽면만 계산해주면 된다.


3.      Measure For Nominal Attributes Proximity (명목형 속성의 가까움 측정)


     명목형 데이터의 상태가 2개 이상일 때 적용된다.

     각각의 거리의 계산은 d(i,j)는 아래의 식으로 계산이 된다.


③             

     여기서 p는 속성의 총 개수, m은 일치하는 개수다.

     예제

n         

  


n  Test-1 Attribute의 비유사성은 아래와 같은 메트릭스를 갖는다.


n         

  

n  각각의 식은 d(4,1)만 동일한 값이므로, 0이 되고 나머지는 1이된다.


n         

  


4.      Measure For Binary Attributes Proximity


     두 가지의 상태만 가진것의 가까운정도를 측정할 때 사용한다.


     속성의 상태 중에서 남자/여자 와 같은것은 symmetric binary variables라 하고 예/아니오 와 같은 것은 asymmetric binary variables라고 한다.


     분할표는 아래와 같다



     Symmetric binary dissimilarity(대칭형 이진 비유사성)


n        

  


     Asymmetric binary dissimilarity(비대칭형 이진 비유사성)


n         

  

n  비대칭형 이진데이터는 두개의 상태가 동일한 중요성을 갖고 있지 않는다. 두값이 모두다 negative한 데이터인 t는 무시해버린다.


     Asymmetric binary simmilarity(비대칭형 이진 유사성)


n         

  


     예제


n         

  

n  여기서 gender는 대칭형이고 나머지는 비대칭형이다. Y P 1로 보고 N 0으로 설정한다.


n         

  

 


5.      Measure For Numeric Attributes Proximity


     숫자형 데이터의 가까움 정도를 측정하는 것은 3가지의 방법이 존재한다. Euclidean,manhattan,supremum이다. 유클리안과 맨하탄 방법을 민코스키(Minkowski)가 일반화 시킨 것이 Minkowski distance이다, supremum은 민코스키의 식에서 노름(norm)이 무한대로 갈 때의 식을 정리했다. 슈프리멈은 두지점사이의 절대값은 최대값을 의미한다.


     Euclidean distance


n         

n  보통 직선거리를 의미한다(피타고라스의 정리와 같음)


     Manhattan(or city block) distance


n         

n  이것은 도로에서 해당 지점까지 직선으로 못 가는 경우에 해당한다.


     Supremum distance


n         

n  , 각각의 거리차에서 가장 큰 것을 선택한다.


     Minkowsky distance


n  민코스키가 유클리안 과 맨하탄 식을 일반화 시킴

n  h값이 1이면 맨하탄 거리가 되고, 2이면 유클리드 거리, 무한대면 슈프리멈 거리가 된다.


n         


     예제


n         

 

6.      Measure For Ordinal Attributes Proximity



n  처리방법(3Step)


     해당 속성의 상태들을 1부터 M 까지 순서를 매긴다



상태가 fair(1),good(2),excellent(3) 이렇게 숫자로 변환해준다.


     [0,1] 범주에 들도록 일반화 한다.



여기서 Mf는 상태의 총합이며(3) rif는 상태 값이다.

이렇게 계산되면 Fair 0으로, good0.5excellent1로 계산된다.


     유클리드 거리법으로 계산한다. (일반화 된 값을 뺀 후 제곱에 루트값)




7.      Measure For Mixed Type Proximity


     여러가지 타입의 속성을 비교할 때는  각각의 타입에 맞는 식으로 계산한 후에 

      각각의 메트릭스를 다시 통합해준다.


②         

  

n  Numeric


:두 속성의 차이에 해당 속성의 최대값에서 최소값을 뺀 값으로 나눈다.


n  Binary



: 두 값이 같으면 0이고 그렇지 않으면 1이 된다.


n  Ordinal



:6번 항목에서 나온 그 식으로 계산해준다.



     여기서    


n  만약 비교하는 i,j 값 둘 중 하나가 없거나(missing value), 비교하는 값이 둘다 0인 동시에 asymmetric binary 일때는 0이되고, 다른 경우는 1이된다.


     구해진 메트릭스의 같은 행과 열에 있는 것들의 평균을 구해서 하나의 메트릭스로 생성해준다.


8.      Cosine Similarity


     Document 문서와 같은 것들은 수천개 이상의 attributes들이 존재한다.

     이것들의 유사성을 구하는데 코사인을 사용한다.


②        

     여기서 분모의 식은 각각 x,y의 속성끼리의 곱의 합이며, ||x||x의 각 값의 제곱에 합의 루트를 씌운값이다.(유클리드 거리)


     예제 (Document1 Document2와 비교)


n         

n          




참고문헌:Data Mining Concepts and Techniques, 3rd Edition, Jiawei Han & Micheline Kamber

저작권 문제가 발생시 삭제될 수 있습니다.

And