성공적인 데이터 마이닝을 위해서는 데이터에 관련된 문제를 이해해야 한다.
데이터 타입
데이터 객체를 서술하기 위해 사용된 속성(attribute)들이 정량적이든, 정성적이든, 상이한 타입을 가질 수 있다.
- 시계열 데이터, 서로간 관계를 가지는 객체
데이터 타입은 데이터의 분석에 사용하게 될 도구와 기법을 결정한다.
데이터 품질
종종 완벽하지 못한 데이터는 어느정도 불완전성을 알고리즘으로 감내할 수 있다.
데이터 품질을 개선하고자 이해하려고 노력하면 대개 분석 결과의 품질이 개선 된다.
- 잡음, 이상치의 존재, 누락되거나 비-일관적이거나 중복된 데이터, 편중 등
데이터 전처리
원시 데이터는 분석에 적합한 형태로 처리되어야한다.
품질 개선과 특정 데이터 마이닝 기법이나 도구에 맞게끔 데이터를 수정하는게 목표이다.
- 예를 들어, 연속성 속성인 길이의 경우 특정 기법에 적용하기 위해 단기, 중간, 장기와 같은 이산 범위로 변환할 필요가 있다.
관계 측면에서의 데이터 분석
데이터 객체들 간 관계를 발견하고 난 후, 데이터 자체보다는 관계에 남아 있는 분석을 수행한다.
- 객체 유사도나 거리를 계산하고 난 후, 이러한 유사도나 거리를 기반으로 분류, 군집화 등을 수행할 수 있다.
'CSE > Data Mining' 카테고리의 다른 글
Data Mining - Data (2) (0) | 2025.03.08 |
---|---|
Data Mining - Introduction (0) | 2025.03.06 |