学堂在线,《数据挖掘:理论与算法》 学习简单记录。

第七章

营销购物 关联规则

  • 频繁集
    • 买了这个 item 的人,经常购买另外一个 item
  • 关联规则
    • 买了这个item 的人,也买了另外一个 item
  • 序列模式
    • 外加时间维度

执行度就是条件概率 image.png

有些误区:

  • 相关性不等于因果关系,关联规则就是条件概率

Apriori 算法

  • 所有不频繁的超集都不频繁
  • 所有频繁的子集都是频繁的

序列模式

  • 所有频繁的序列的子序列都是频繁的

推荐算法

  • TF-IDF
    • Term Frequency,单词在文档出现的频率
    • Inverse Document Frequency,用来区分和其他文档差异的单次,在其他文档中出现比较少
    • 有点类似文档特征单子的感觉
  • Vector Space Model
    • 计算机本质上处理不了文本,所以需要对文本做映射
    • 难点
      • 含义表达差异
      • 同义词(apple 电脑和水果)
  • Latent Semantic Analysis,隐含语义分析
    • 与 PCA 的技术有些类似
  • PageRank -

  • Collaborative Filtering
    • 和我类似的人,对某商品的评价,用来推测我是否可能购买
    • 对那些另类人比较难预测

集成算法

The Big Picture image.png

包括:

  • Bagging(目标是降低测试集和样本的不确定性,并行)
    • Bootstrap Aggregating
    • 随机森林
      • 随机决策树,分类器
      • 特征选择可能都不一样,需要保持他的多样性
  • Stacking
    • Bagging 的基础上,对分类器再做权重训练
  • Boosting(目标是提高准确度,串行)
    • 依次生成 classifier
    • 通过前面分错的,后续的的分类器根据 c1 出错的训练集展开
    • c3 训练 c1、c2 中不同的结论的,即对错误样本进行加权
    • 算法
      • adaboost
        • 对模型的固定权重,对当前输入不会动态调整
        • 可解释性较差
        • 可能是局部最优
      • RegionBootst
        • 对输入会给不同模型不同权重
        • 通过 KNN(k 近邻) 来判断权重

10 大数据挖掘算法:https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/

进化计算

原有的算法都是围绕分类、聚类、回归、选择展开的。

进化计算分

  • 全局优化
  • 遗传算法
  • 可进化

蚁群算法的本质是有信息遗留

遗传算法:

  • Corssover
  • Mutation
  • Selection
  • representation

image.png