데이터 집합(data set)은 데이터 객체(data object)의 모임이다.

데이터 객체는 다수의 속성(attribute)에 의해서 기술된다.

- 속성이란, 객체에 따라 또는 시간에 따라 변하는 객체의 특성

속성의 타입 (Types of Attributes)

속성을 표현하기 위해 사용된 값은 속성 자신의 특성이 아닌 특성을 가질 수 있고, 그 역도 성립한다.

숫자(Numeric)와 범주(Categorical) 로 나눌 수 있다.

숫자형 속성 : 실수, 정수 / 범주형 속성 - 가능성있는 유한 집합의 값

 

Categorical / 정성적(Qualitative) 속성

- 명목형(Nominal) : 순서가 없이 구별 가능한 값을 가짐; ID numbers, eye color, zip codes

- 서열형(Ordinal) : 순서를 정함; height in {tall, medium, short}

Numeric / 정량적(Quantitative) 속성

- 구간(Interval) : 일정한 간격, 정수; calendar dates, temperature in Celsius or Fahrenheit 

- 비율(Ratio) : 실수 ; length, mass, counts

속성이 상이한 타입들

유일성(Distinctness) : = , !=

순서(Order) : <. >

덧셈(Addition) : +, -

곱셈(Multiplication) : *, / 

 

- Nominal : distinctness

- Ordinal : distinctness & order

- Interval : distinctness, order, & addition

- Ratio : all 4 properties

값의 개수에 의한 속성 기술

속성들을 구분하는 독립적인 방법은 속성이 가질 수 있는 값의 개수를 이용하는 것이다.

이산(discrete) : 유한개의 값 또는 셀 수 있는 무한 집합의 값을 갖는다.

- zip codes, counts

- 대개 정수를 표현

- 이진(binary) 속성은 특별한 케이스

연속(continuous) : 실수 값을 가지며 온도, 높이, 무게와 같은 속성을 예로 들 수 있다.

데이터 집합의 타입

타입은 다양하며 계속 다양해지고 있다. 

Record Data

- Data Matrix : attribute 는 차원을 의미, m x n

- Document Data : bag of word 처럼, 얼마나 빈도수가 있는지 측정, 요즘은 임베딩을 주로 함

- Transaction Data : association rule

Graph

- World Wide Web

- Molecular Structures

Ordered

- Sequence Data

- Time series Data

- Spatial Data

'CSE > Data Mining' 카테고리의 다른 글

Data Mining - Data (1)  (0) 2025.03.07
Data Mining - Introduction  (0) 2025.03.06

성공적인 데이터 마이닝을 위해서는 데이터에 관련된 문제를 이해해야 한다.

데이터 타입

데이터 객체를 서술하기 위해 사용된 속성(attribute)들이 정량적이든, 정성적이든, 상이한 타입을 가질 수 있다.

- 시계열 데이터, 서로간 관계를 가지는 객체

데이터 타입은 데이터의 분석에 사용하게 될 도구와 기법을 결정한다.

Collection of data objects and their attributes

데이터 품질

종종 완벽하지 못한 데이터는 어느정도 불완전성을 알고리즘으로 감내할 수 있다.

데이터 품질을 개선하고자 이해하려고 노력하면 대개 분석 결과의 품질이 개선 된다.

- 잡음, 이상치의 존재, 누락되거나 비-일관적이거나 중복된 데이터, 편중 등

데이터 전처리

원시 데이터는 분석에 적합한 형태로 처리되어야한다.

품질 개선과 특정 데이터 마이닝 기법이나 도구에 맞게끔 데이터를 수정하는게 목표이다.

- 예를 들어, 연속성 속성인 길이의 경우 특정 기법에 적용하기 위해 단기, 중간, 장기와 같은 이산 범위로 변환할 필요가 있다.

관계 측면에서의 데이터 분석

데이터 객체들 간 관계를 발견하고 난 후, 데이터 자체보다는 관계에 남아 있는 분석을 수행한다.

- 객체 유사도나 거리를 계산하고 난 후, 이러한 유사도나 거리를 기반으로 분류, 군집화 등을 수행할 수 있다.

 

'CSE > Data Mining' 카테고리의 다른 글

Data Mining - Data (2)  (0) 2025.03.08
Data Mining - Introduction  (0) 2025.03.06

작년부터 파트타임으로 박사과정에 진학 중이다.

이번 3학기에 신청한 데이터 마이닝 수업에서 알게된 내용을 정리하고자 한다.


데이터 마이닝 이란?

데이터로부터 잠재적으로 유용한 정보를 추출하는 것이다.

- 의미있는 패턴 추출을 위해 자동, 반자동 방법을 사용

아래의 그림처럼, 원시 데이터를 유용한 정보로 변환하는 전체 프로세스 중 데이터 마이닝은 필수인 부분이다.

지식 탐사 프로세스(KDD;Knowledge Discovery Database)

전처리(Preprocessing)의 목적은 원시 입력 데이터를 후속 분석에 적합한 형식으로 변환하는 것이다.

- 가장 힘들고 시간이 많이 걸리는 단계

후처리(Postprocessing)은 유효하고 유용한 결과만 의사 결정 지원 시스템에 통합되도록 보장한다.

- 시각화 등

왜 데이터 마이닝을 해야하는가?

데이터 생성과 수집의 발전으로 인해 엄청나게 많은 데이터가 빠른 속도로 저장되고 있다.

- 동시에 컴퓨팅 자원은 저렴해지면서 강력해지고 있다.

기존 기술들은 아래의 이유로 원시 데이터에 적용할 수 없다.

- Scalability, High dimensionality, Heterogeneous and complex data

데이터 마이닝은 과학자들에 도움이 된다.

- 데이터를 분할하는 것, 분류하는 것, 가설 형성

많은 학문이 융합된 데이터 마이닝

사회의 주요 문제들을 해결하기 위한 좋은 기회가 된다.

- 복지 정책 및 비용 감소

- 기후 변화의 영향 예측

- 대체 에너지 찾기 등

데이터 마이닝 작업

예측(Prediction) 작업 : 다른 속성(attribute)의 값을 기반으로 특정 속성의 값을 예측하는 것

- 예측될 속성 : 목표, 종속 변수 / 예측에 사용되는 속성 : 설명, 독립 변수

서술(Description) 작업 : 데이터를 서술하는 인간이 이해 가능한 패턴을 찾는 것

- 상관관계, 추세, 클러스터, 궤적 및 이상

4가지 핵심 데이터 마이닝 작업

예측 모델링(Predictive Modeling)

독립 변수의 함수로 대상 변수에 대한 모델을 작성하는 작업이다.

이러한 예측 모델에는 지도 학습(Supervised learning), 분류(classification)와 회귀(regression)가 있다.

분류 : 튜플(tuple)로 기록된 데이터 (attribute : x, predefined class : y) 에 대한 임의의 x를 통해 y 예측을 목표

General Approach for Building Classification Model

- Base Classifiers : Nearest-neighbor classifier, Decision Tree based Methods, Neural Networks, Deep Neural Networks, Naive Bayes and Bayesian Belief Networks, Support Vector Machines

- Ensemble Classifiers : Boosting, Bagging, Random Forests 

회귀 : 튜플로 기록된 데이터 (attribute : x, continuous value : y) 에 대한 임의의 x를 통해 y 예측을 목표

classification , regression

- Base : Linear regression, Logistic regression, Neural Networks, Support Vector Regression, ...

군집화(Clustering) 

동일한 군집에 속하는 관측치가 다른 군집에 속하는 관측치보다 서로 유사하도록 밀접하게 관련된 관측치 그룹을 찾는다.

내부 클러스터 (그룹) 안에 오브젝트들은 거리가 최소가 되도록, 군집 간 거리는 최대가 되도록 한다. 

- Base : K-means clustering, Hierarchical clustering, DBSCAN,...

연관 규칙(Association Rule)

데이터에서 강하게 연관된 기능을 설명하는 패턴을 발견하는데 사용된다.

가장 흥미로운 패턴을 효율적으로 추출한다.

Association Rule Discovery

이상 탐지(Anomaly/Outlier Detection)

나머지 데이터와 특성이 크게 다른 관측치를 식별하는 작업이다.

- 이러한 관찰을 이상치 또는 국외자(outlier)라고 함

- KNN distance-based method, Tree based method, Density-based method, SVM-based method, Autoencoder based method, Clustering-based method

'CSE > Data Mining' 카테고리의 다른 글

Data Mining - Data (2)  (0) 2025.03.08
Data Mining - Data (1)  (0) 2025.03.07

+ Recent posts