[빅데이터] 3. Data Transformation and Data Discretization

|


Data Transformation and Data Discretization


1.     데이터 선처리 기법으로 데이터 변환과 데이터 이산화 방법이 있다. 데이터를 변환하거나 통합함으로써 

      데이터 마이닝 프로세스를 더 효율적이고 패턴을 찾는데 더 쉽게 이해할 수 있게 한다

      그 방법으로는 6가지정도의 방법(methods)이 있다.


     Smmoothing: 노이즈 데이터의 제거,방법으로는 Binning,regression,clustering 이 있다.

     Atrribute/Feature construction : 새로운 Attribute의 추가(마이닝 프로세스를 위해서)

     Aggregation(종합):데이터를 요약(summary)한다.

     Normalization(정규화):Attributes를 특정 범위 안에 들어가게 처리한다. (ex. 0 to 1)

     Discretization(이산화):숫자 데이터들은 단위명이나 개념적인 이름으로 대체한다.

     (ex. age attribute 0-10,11-20 의 라벨로 바꾸거나 youth , adult 등으로 변경한다.)

     Concept hierarchy generation for nominal data(명목데이터의 개념 계층 생성) : 명목형 데이터들을 

     개념적으로 계층을 만든다 (e.g., streetcity country의 상위 개념으로 변경한다.)


2.      Normalization


: 정규화는 3가지의 종류가 존재한다.


     Min-Max normalization : 표본 데이터에서 최대값과 최소값을 확인 후에 이를 바탕으로 정의한 임의의 범위에 들게 처리한다. 돈처럼 단위가 큰 것을 [0,1]의 범위로 표준화를 해서 비교하기 쉽게 처리할 수 도 있다. 여기에서 주의점은 범위 밖의 새로운 데이터가 Input으로 들어왔을 때는 “out-of-bound” 가 발생한다.


     Z-score normalization(zero-mean normalization) : 평균과 표준편차를 기반으로 정규화 한다

     이것은 실제의 최대값과 최소값을 모를 때 유용하게 사용된다.


-식의 변형(variation) : 표준편차를 사용하는 대신에 절대평균편차를 사용하면 아웃라이어에 대해서 좀더 강력하게 된다. 제곱근을 사용하는 대신에 차이에 절대값으로 계산되기 때문에 아웃라이어 들이 다소 줄어든다.


     Normalization by decimal scaling: 소수점을 변경함으로 써 정규화 한다

     정규화된 값의 절대값은 1보다 작아야한다.

 


3.      이산화(Discretization)


Ø  이산화의 전략에는 2가지의 타입이 있다. 분류 정보(class information)을 사용 여부 와 진행 방향에 따라서

   분류가 된다.


     분류 정보 사용 여부


n  Supervised : 이미 분류 정보가 있는 것을 기반으로 데이터를 분류한다.

n  Unsupervised : 분류 정보가 없어서 사용자의 정의에 따라서 분류한다.


     진행 방향


n  Top-down(Splitting) : 하나 또는 몇 개의 지점에서 Split Point(분할점)을 찾아서 세분화 한다.

n  Bottom-up(Merging) :  모든 연속된 값들을 잠재적인 분할점이라고 생각하고 그것들에서 이웃하는 값들은 구간으로 묶어서 병합하면서 구간을 축소해나간다.


Ø  Methods


     Binning : Top-down & unsupervised


n  파티션 분할 방법


A.     Equal-Width: 간격을 동일하게 한다. (Range)

B.      Equal-Depth: 개수가 동일하게 분할한다.(Frequency)


n  Smoothing 기법들


A.     Smoothing by bin mean:통의 평균값으로 모두 변경

B.      Smoothing by bin median:통의 중간값으로 모두 변경

C.      Smoothing by bin boundary:통의 범주에 가까운 값으로 변경


     Histogram Analysis: Top-down & unsupervised


n  파티션 분할 방법은 Equal-width equal-depth 로 한다.

n  막대형 그래프(bar chart)


     Cluster : Top-down or Bottom-up & unsupervised


n  Numeric Attribute에 적용이 되며 가장 인기 있는 방법이다.

n  데이터 포인트에 대한 근접성 과 분포를 고려하기 때문에 양질의 이산화 결과를 얻을 수 있다.

n  몇 개의 시작 지점으로부터 구별점을 찾아서 하향식으로 세분화 할 수 도 있고, 전체에서 유사한 데이터들을 병합해 나가면서 상향식으로 결합 할 수 도 있다.


     Decision Tree(의사결정트리) : Top-down & supervised


n  다른 Methods과 다르게 class information을 사용한다.

n  예를 들어서, 병원에서 병에 대한 환자들의 증상이 이미 분류가 되어있다. 따라서 의사는 환자의 증상들을 확인해가면서 어떤 병인지를 진단하는데 사용할 수 있다.

n  Entropy(불확실성) : 의사결정 트리에서 분할점이 되는 지점은 엔트로피가 가장적은 지점이 된다. , 다른것과의 구분이 모호하지 않고(모호하면 엔트로피가 높음) 낮아야 진단을 할 수 있다.


     Correlation Analyses : Bottom-up & unsupervised


n  인접한 구간을 합쳐서 큰 구간을 생성해서 미리 정의된 정지 조건까지 계속 합처나간다.

n  ChiMerge 기법이 있다.


          

4.      명목형 데이터에 대한 개념 계층 생성


     Specification of a partial ordering of attributes explicitly at the schema level by users or experts


n  미리 스키마 단계에서 부분적으로 Attributes들의 순서를 설정한다.


     Specification of a portion of a hierarchy by explicit data grouping


n  큰 데이터 베이스에서는 전체 값에 대한 개념계층을 생성할 수 가 없기 때문에, 중간 레벨의 작은 부분에 대한 명시적인 그룹을 명세화 한다. 예를 들어서, 국가(country)나 주(province)에 대해서 동부, 서부로 구분해서 동부에 해당하는 주를 포함하게 한다.


     Specification of a set of attributes, but not of their partial ordering


n  사용자가 Attributes의 집합은 명세했지만 순서(ordering)을 설정하지 않았을 때 시스템에서 자동적으로 의미상의 개념 계층을 생성할 수 있다.


n  예를 들어서, street,city,province_or_state,country들의 Attribute들이 있을때 distinctvaluestreet가 가장 많게 되고 country가 가장 적게 된다. 따라서 이 개수에 기반해서 순서를 설정한다.


n  주의: 이런 체험적인 방법은 항상 정상적으로 동작하는 것은 아니다. 만약 time dimension20개의 year12개의 month7개의 day of week가 있을때는 올바른 계층이 생성이 되지 않는다.


     Specification of only a partial set of attributes


n  사용자가 아주 작은 부분만 정의 했을 경우를 대비해서, DB 스키마 단계에서 시스템 관리자가 미리 연관된 의미상으로 밀접한 Attributes를 함께 고정시켜놓는다. 그래서 하나의 Attribute를 가지고 명세하려고 하면 자동적으로 연관된(semantically tightly linked) Attributes이 추가 된다.


    그러나 필요하면 사용자가 이 기능을 Override할 수 가 있다.




참고문헌:Data Mining Concepts and Techniques, 3rd Edition, Jiawei Han & Micheline Kamber

저작권 문제가 발생시 삭제될 수 있습니다.


And