数据挖掘(第七章 ~ 第十章)
学堂在线,《数据挖掘:理论与算法》 学习简单记录。
第七章
营销购物 关联规则
- 频繁集
- 买了这个 item 的人,经常购买另外一个 item
- 关联规则
- 买了这个item 的人,也买了另外一个 item
- 序列模式
- 外加时间维度
执行度就是条件概率
有些误区:
- 相关性不等于因果关系,关联规则就是条件概率
Apriori 算法
- 所有不频繁的超集都不频繁
- 所有频繁的子集都是频繁的
序列模式
- 所有频繁的序列的子序列都是频繁的
推荐算法
- TF-IDF
- Term Frequency,单词在文档出现的频率
- Inverse Document Frequency,用来区分和其他文档差异的单次,在其他文档中出现比较少
- 有点类似文档特征单子的感觉
- Vector Space Model
- 计算机本质上处理不了文本,所以需要对文本做映射
- 难点
- 含义表达差异
- 同义词(apple 电脑和水果)
- Latent Semantic Analysis,隐含语义分析
- 与 PCA 的技术有些类似
-
PageRank -
- Collaborative Filtering
- 和我类似的人,对某商品的评价,用来推测我是否可能购买
- 对那些另类人比较难预测
集成算法
The Big Picture
包括:
- Bagging(目标是降低测试集和样本的不确定性,并行)
- Bootstrap Aggregating
- 随机森林
- 随机决策树,分类器
- 特征选择可能都不一样,需要保持他的多样性
- Stacking
- Bagging 的基础上,对分类器再做权重训练
- Boosting(目标是提高准确度,串行)
- 依次生成 classifier
- 通过前面分错的,后续的的分类器根据 c1 出错的训练集展开
- c3 训练 c1、c2 中不同的结论的,即对错误样本进行加权
- 算法
- adaboost
- 对模型的固定权重,对当前输入不会动态调整
- 可解释性较差
- 可能是局部最优
- RegionBootst
- 对输入会给不同模型不同权重
- 通过 KNN(k 近邻) 来判断权重
- adaboost
10 大数据挖掘算法:https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/
进化计算
原有的算法都是围绕分类、聚类、回归、选择展开的。
进化计算分
- 全局优化
- 遗传算法
- 可进化
蚁群算法的本质是有信息遗留
遗传算法:
- Corssover
- Mutation
- Selection
- representation