聚类
相似性衡量
- 距离
- 相似性
- 核函数
- DTW(dynamic time warping 一种特殊的距离算法)
聚类算法
划分聚类(Partition-based methods)
确认聚类数量,挑选初始点 -> 类内的点足够近,类间的点足够远。密度聚类(Density-based methods)
指定圈的最大半径,包含的最少点数量 -> 画圈。模型聚类(Model-based methods)
基于概率模型和神经网络模型 -> 同一类属于同一概率分布层次聚类(Hierarchical methods)
自下而上法 (bottom-up) 和自上而下法 (top-down),根据linkage迭代联合或者排异。网格聚类(Grid-based methods)
将数据空间划分为网格单元,将数据对象集映射到网格单元中。计算每个单元的密度,根据阈值确定高密度单元 -> 相近的高密度单元组成类
常用聚类算法
Overview of clustering methods
k-means
GMM
数据简化
- 变化
- 降维
- 抽样