学堂在线,《数据挖掘:理论与算法》 学习简单记录。

第三章 贝叶斯和决策树

分类是一种有监督的学习。

贝叶斯定律: image.png

决策树

最大的优势在于,思维方式与人相同,结论可解释。 决策树用来表示可以是多个,通 Occam’s racor 的原则,我们会尽可能选择较为简单的决策模型。

算法:

  • ID3
    • 通过对比信息增益来选择相关的特征值
    • 为了避免 overfitting,需要计算 gainratio
  • overfitting
    • 剪枝
    • 限定层级

神经网络

本质还是一个分类器 核心是解决线性不可分的问题,而线性不可分的问题,是通过隐含层做映射,而从变成可以线性分割的。

网络震荡的出现可能是后续的学习率太高了。

其他网络:

  • 具有记忆功能的神经网络:Elman Network。 通过 copy 上一次的输入实现。
  • 模糊记忆:Hopfield Network,20世纪80年代

NN 问题:

  • 训练时间较长
  • 可解释性差

支持向量机 SVM

分类领域的另一算法,本质还是一种线性分类器,不仅能分对,还能保证 margin 最大(也就是容错性更好)。

核心是将低维空间映射到高维空间(Feature Space)

向量模:百度百科 内积:向量内积,inner product

image.png

决策树越复杂,错误概越大 image.png

聚类

  • unsupervised learning
  • No Label
  • Data Driven

算法: 聚类方法:

  • K-Means
    • 类似于球型,收敛很快
    • 缺点
      • 无法确定 K 值
      • 可能是局部最优
      • 对噪点敏感
      • 非球形
  • Sequential Leader
    • 处理流数据
    • 缺点
      • 需要手动设置 threshold
  • ModelBased Methods,期望最大化,EM
    • Gaussian Mixture,高斯混合,类似 K-Menus 的方式迭代
  • DensityBased Methods,基于密度的聚类
    • DBSCAN
      • core point
      • border point
      • nosiy point
  • Hierarchical Clustering,层次型聚类
    • 进化图,从 1 ~ N 的不同聚类,自己决定需要多少族

步骤: image.png

10 大数据挖掘算法