데이터 집합(data set)은 데이터 객체(data object)의 모임이다.

데이터 객체는 다수의 속성(attribute)에 의해서 기술된다.

- 속성이란, 객체에 따라 또는 시간에 따라 변하는 객체의 특성

속성의 타입 (Types of Attributes)

속성을 표현하기 위해 사용된 값은 속성 자신의 특성이 아닌 특성을 가질 수 있고, 그 역도 성립한다.

숫자(Numeric)와 범주(Categorical) 로 나눌 수 있다.

숫자형 속성 : 실수, 정수 / 범주형 속성 - 가능성있는 유한 집합의 값

 

Categorical / 정성적(Qualitative) 속성

- 명목형(Nominal) : 순서가 없이 구별 가능한 값을 가짐; ID numbers, eye color, zip codes

- 서열형(Ordinal) : 순서를 정함; height in {tall, medium, short}

Numeric / 정량적(Quantitative) 속성

- 구간(Interval) : 일정한 간격, 정수; calendar dates, temperature in Celsius or Fahrenheit 

- 비율(Ratio) : 실수 ; length, mass, counts

속성이 상이한 타입들

유일성(Distinctness) : = , !=

순서(Order) : <. >

덧셈(Addition) : +, -

곱셈(Multiplication) : *, / 

 

- Nominal : distinctness

- Ordinal : distinctness & order

- Interval : distinctness, order, & addition

- Ratio : all 4 properties

값의 개수에 의한 속성 기술

속성들을 구분하는 독립적인 방법은 속성이 가질 수 있는 값의 개수를 이용하는 것이다.

이산(discrete) : 유한개의 값 또는 셀 수 있는 무한 집합의 값을 갖는다.

- zip codes, counts

- 대개 정수를 표현

- 이진(binary) 속성은 특별한 케이스

연속(continuous) : 실수 값을 가지며 온도, 높이, 무게와 같은 속성을 예로 들 수 있다.

데이터 집합의 타입

타입은 다양하며 계속 다양해지고 있다. 

Record Data

- Data Matrix : attribute 는 차원을 의미, m x n

- Document Data : bag of word 처럼, 얼마나 빈도수가 있는지 측정, 요즘은 임베딩을 주로 함

- Transaction Data : association rule

Graph

- World Wide Web

- Molecular Structures

Ordered

- Sequence Data

- Time series Data

- Spatial Data

'CSE > Data Mining' 카테고리의 다른 글

Data Mining - Data (1)  (0) 2025.03.07
Data Mining - Introduction  (0) 2025.03.06

+ Recent posts