작년부터 파트타임으로 박사과정에 진학 중이다.
이번 3학기에 신청한 데이터 마이닝 수업에서 알게된 내용을 정리하고자 한다.
데이터 마이닝 이란?
데이터로부터 잠재적으로 유용한 정보를 추출하는 것이다.
- 의미있는 패턴 추출을 위해 자동, 반자동 방법을 사용
아래의 그림처럼, 원시 데이터를 유용한 정보로 변환하는 전체 프로세스 중 데이터 마이닝은 필수인 부분이다.
전처리(Preprocessing)의 목적은 원시 입력 데이터를 후속 분석에 적합한 형식으로 변환하는 것이다.
- 가장 힘들고 시간이 많이 걸리는 단계
후처리(Postprocessing)은 유효하고 유용한 결과만 의사 결정 지원 시스템에 통합되도록 보장한다.
- 시각화 등
왜 데이터 마이닝을 해야하는가?
데이터 생성과 수집의 발전으로 인해 엄청나게 많은 데이터가 빠른 속도로 저장되고 있다.
- 동시에 컴퓨팅 자원은 저렴해지면서 강력해지고 있다.
기존 기술들은 아래의 이유로 원시 데이터에 적용할 수 없다.
- Scalability, High dimensionality, Heterogeneous and complex data
데이터 마이닝은 과학자들에 도움이 된다.
- 데이터를 분할하는 것, 분류하는 것, 가설 형성
사회의 주요 문제들을 해결하기 위한 좋은 기회가 된다.
- 복지 정책 및 비용 감소
- 기후 변화의 영향 예측
- 대체 에너지 찾기 등
데이터 마이닝 작업
예측(Prediction) 작업 : 다른 속성(attribute)의 값을 기반으로 특정 속성의 값을 예측하는 것
- 예측될 속성 : 목표, 종속 변수 / 예측에 사용되는 속성 : 설명, 독립 변수
서술(Description) 작업 : 데이터를 서술하는 인간이 이해 가능한 패턴을 찾는 것
- 상관관계, 추세, 클러스터, 궤적 및 이상
예측 모델링(Predictive Modeling)
독립 변수의 함수로 대상 변수에 대한 모델을 작성하는 작업이다.
이러한 예측 모델에는 지도 학습(Supervised learning), 분류(classification)와 회귀(regression)가 있다.
분류 : 튜플(tuple)로 기록된 데이터 (attribute : x, predefined class : y) 에 대한 임의의 x를 통해 y 예측을 목표
- Base Classifiers : Nearest-neighbor classifier, Decision Tree based Methods, Neural Networks, Deep Neural Networks, Naive Bayes and Bayesian Belief Networks, Support Vector Machines
- Ensemble Classifiers : Boosting, Bagging, Random Forests
회귀 : 튜플로 기록된 데이터 (attribute : x, continuous value : y) 에 대한 임의의 x를 통해 y 예측을 목표
- Base : Linear regression, Logistic regression, Neural Networks, Support Vector Regression, ...
군집화(Clustering)
동일한 군집에 속하는 관측치가 다른 군집에 속하는 관측치보다 서로 유사하도록 밀접하게 관련된 관측치 그룹을 찾는다.
내부 클러스터 (그룹) 안에 오브젝트들은 거리가 최소가 되도록, 군집 간 거리는 최대가 되도록 한다.
- Base : K-means clustering, Hierarchical clustering, DBSCAN,...
연관 규칙(Association Rule)
데이터에서 강하게 연관된 기능을 설명하는 패턴을 발견하는데 사용된다.
가장 흥미로운 패턴을 효율적으로 추출한다.
이상 탐지(Anomaly/Outlier Detection)
나머지 데이터와 특성이 크게 다른 관측치를 식별하는 작업이다.
- 이러한 관찰을 이상치 또는 국외자(outlier)라고 함
- KNN distance-based method, Tree based method, Density-based method, SVM-based method, Autoencoder based method, Clustering-based method
'CSE > Data Mining' 카테고리의 다른 글
Data Mining - Data (2) (0) | 2025.03.08 |
---|---|
Data Mining - Data (1) (0) | 2025.03.07 |