数据挖掘(第三章 ~ 第六章)
学堂在线,《数据挖掘:理论与算法》 学习简单记录。
第三章 贝叶斯和决策树
分类是一种有监督的学习。
贝叶斯定律:
决策树
最大的优势在于,思维方式与人相同,结论可解释。 决策树用来表示可以是多个,通 Occam’s racor 的原则,我们会尽可能选择较为简单的决策模型。
算法:
- ID3
- 通过对比信息增益来选择相关的特征值
- 为了避免 overfitting,需要计算 gainratio
- overfitting
- 剪枝
- 限定层级
神经网络
本质还是一个分类器 核心是解决线性不可分的问题,而线性不可分的问题,是通过隐含层做映射,而从变成可以线性分割的。
网络震荡的出现可能是后续的学习率太高了。
其他网络:
- 具有记忆功能的神经网络:Elman Network。 通过 copy 上一次的输入实现。
- 模糊记忆:Hopfield Network,20世纪80年代
NN 问题:
- 训练时间较长
- 可解释性差
支持向量机 SVM
分类领域的另一算法,本质还是一种线性分类器,不仅能分对,还能保证 margin 最大(也就是容错性更好)。
核心是将低维空间映射到高维空间(Feature Space)
向量模:百度百科 内积:向量内积,inner product
决策树越复杂,错误概越大
聚类
- unsupervised learning
- No Label
- Data Driven
算法: 聚类方法:
- K-Means
- 类似于球型,收敛很快
- 缺点
- 无法确定 K 值
- 可能是局部最优
- 对噪点敏感
- 非球形
- Sequential Leader
- 处理流数据
- 缺点
- 需要手动设置 threshold
- ModelBased Methods,期望最大化,EM
- Gaussian Mixture,高斯混合,类似 K-Menus 的方式迭代
- DensityBased Methods,基于密度的聚类
- DBSCAN
- core point
- border point
- nosiy point
- DBSCAN
- Hierarchical Clustering,层次型聚类
- 进化图,从 1 ~ N 的不同聚类,自己决定需要多少族
步骤: