데이터 집합(data set)은 데이터 객체(data object)의 모임이다.
데이터 객체는 다수의 속성(attribute)에 의해서 기술된다.
- 속성이란, 객체에 따라 또는 시간에 따라 변하는 객체의 특성
속성의 타입 (Types of Attributes)
속성을 표현하기 위해 사용된 값은 속성 자신의 특성이 아닌 특성을 가질 수 있고, 그 역도 성립한다.
숫자(Numeric)와 범주(Categorical) 로 나눌 수 있다.
숫자형 속성 : 실수, 정수 / 범주형 속성 - 가능성있는 유한 집합의 값
Categorical / 정성적(Qualitative) 속성
- 명목형(Nominal) : 순서가 없이 구별 가능한 값을 가짐; ID numbers, eye color, zip codes
- 서열형(Ordinal) : 순서를 정함; height in {tall, medium, short}
Numeric / 정량적(Quantitative) 속성
- 구간(Interval) : 일정한 간격, 정수; calendar dates, temperature in Celsius or Fahrenheit
- 비율(Ratio) : 실수 ; length, mass, counts
속성이 상이한 타입들
유일성(Distinctness) : = , !=
순서(Order) : <. >
덧셈(Addition) : +, -
곱셈(Multiplication) : *, /
- Nominal : distinctness
- Ordinal : distinctness & order
- Interval : distinctness, order, & addition
- Ratio : all 4 properties
값의 개수에 의한 속성 기술
속성들을 구분하는 독립적인 방법은 속성이 가질 수 있는 값의 개수를 이용하는 것이다.
이산(discrete) : 유한개의 값 또는 셀 수 있는 무한 집합의 값을 갖는다.
- zip codes, counts
- 대개 정수를 표현
- 이진(binary) 속성은 특별한 케이스
연속(continuous) : 실수 값을 가지며 온도, 높이, 무게와 같은 속성을 예로 들 수 있다.
데이터 집합의 타입
타입은 다양하며 계속 다양해지고 있다.
Record Data
- Data Matrix : attribute 는 차원을 의미, m x n
- Document Data : bag of word 처럼, 얼마나 빈도수가 있는지 측정, 요즘은 임베딩을 주로 함
- Transaction Data : association rule
Graph
- World Wide Web
- Molecular Structures
Ordered
- Sequence Data
- Time series Data
- Spatial Data
'CSE > Data Mining' 카테고리의 다른 글
Data Mining - Data (1) (0) | 2025.03.07 |
---|---|
Data Mining - Introduction (0) | 2025.03.06 |