성공적인 데이터 마이닝을 위해서는 데이터에 관련된 문제를 이해해야 한다.

데이터 타입

데이터 객체를 서술하기 위해 사용된 속성(attribute)들이 정량적이든, 정성적이든, 상이한 타입을 가질 수 있다.

- 시계열 데이터, 서로간 관계를 가지는 객체

데이터 타입은 데이터의 분석에 사용하게 될 도구와 기법을 결정한다.

Collection of data objects and their attributes

데이터 품질

종종 완벽하지 못한 데이터는 어느정도 불완전성을 알고리즘으로 감내할 수 있다.

데이터 품질을 개선하고자 이해하려고 노력하면 대개 분석 결과의 품질이 개선 된다.

- 잡음, 이상치의 존재, 누락되거나 비-일관적이거나 중복된 데이터, 편중 등

데이터 전처리

원시 데이터는 분석에 적합한 형태로 처리되어야한다.

품질 개선과 특정 데이터 마이닝 기법이나 도구에 맞게끔 데이터를 수정하는게 목표이다.

- 예를 들어, 연속성 속성인 길이의 경우 특정 기법에 적용하기 위해 단기, 중간, 장기와 같은 이산 범위로 변환할 필요가 있다.

관계 측면에서의 데이터 분석

데이터 객체들 간 관계를 발견하고 난 후, 데이터 자체보다는 관계에 남아 있는 분석을 수행한다.

- 객체 유사도나 거리를 계산하고 난 후, 이러한 유사도나 거리를 기반으로 분류, 군집화 등을 수행할 수 있다.

 

'CSE > Data Mining' 카테고리의 다른 글

Data Mining - Data (2)  (0) 2025.03.08
Data Mining - Introduction  (0) 2025.03.06

+ Recent posts