数据挖掘(第一章)
学堂在线,《数据挖掘:理论与算法》 学习简单记录。
语雀地址:https://www.yuque.com/zhoukekestar/diqlmd/qzk5ng
数据挖掘:理论与算法
第一章
教育与学习
数据领域是门综合性学科,主要包含了 人工智能(AI)、机器学习(ML)、模式识别、统计学等。平时,Data Mining 还可能被称为:BI(Business Intelligence)、DA(Data Analytics)、Big Data、Decision Support、CRM 等。
在学习过程中,老师更多的是领路人的角色,学生需要自己去思考、探索。
为什么要学 DataMining? (2010年左右)过去两年的数据量占所有数据量的 90% 以上,一方面随着技术的发展,存储的瓶颈得以突破,另一方面,随着各种软件和 IOT 技术的蓬勃发展。
DRIP:Data Rich Infomation Poor
怎么学习
学习方式:
- 看书
- 《数据挖掘》
- 《模式分类》
- 跟会议、跟期刊
- 与人交流、跟进
- 跟站点、工具
- Google Scholar
- MatLab
- KD Nuggets
- UCI
- WEKA
学习三部曲:
- 学习、讨论
- 扩展、激发灵感
- 动手做、应用
数据与大数据的定义
数据的定义 form WikiPedia: Data are characteristics or information, usually numerical, that are collected through observation.[1] In a more technical sense, data are a set of values of qualitative or quantitative variables about one or more persons or objects, while a datum (singular of data) is a single value of a single variable.[2]
数据
- 有不同类型:连续、字符串等
- 有不同的存储类型:物理(磁盘上的 01)、逻辑(二叉树)
- 核心问题与挑战:数据转换、数据有效性(错误、缺失等)
大数据的定义:
- Gartner
- 三大核心特性:volumn(数据量大)、velocity(数据产生速度快)、variety(数据类型多)
- Mckinsey
- 数据规模大到传统数据库无法存储、管理和分析
数据挖掘应用
- 美国 Houston 的犯罪分析
- 个性化的医疗诊疗方案
- 城市规划
- 基于 LBS 的商超布局优化
- 目标化营销、精准、分层营销
- 情感分析
数据开放
开放数据包括技术上、法律上。 传统的信息化导致了很多的数据孤岛,许多信息也掌握在政府手中,所以政府的数据开放尤为重要:
- 美国数据开放:https://www.data.gov/
- 中国数据开放:http://www.stats.gov.cn/
- 浙江数据开放:http://data.zjzwfw.gov.cn/
数据挖掘的定义
Form Wiki: Data mining is a process of discovering patterns in large data sets involving methods at the intersection of machine learning, statistics, and database systems.[1] Data mining is an interdisciplinary subfield of computer science and statistics with an overall goal to extract information (with intelligent methods) from a data set and transform the information into a comprehensible structure for further use.[1][2][3][4] Data mining is the analysis step of the “knowledge discovery in databases” process, or KDD.[5] Aside from the raw analysis step, it also involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.[1]
在老师的定义中: 数据挖掘是从 Massive、Imcomplete、Noisy 的数据中自动化提取 interesting、useful hidden 模式的过程。
就业前景分析,www.jobui.com:
岗位 | 岗位梳理 | 工资收入 |
---|---|---|
数据 | ||
270*13=3510 | ||
前端 | ||
250*13=3250 | ||
算法 | ||
75*22=1650 |
商业智能是目前数据挖掘最有前景的岗位:
- Data (DataBase) - Infomation (Preprocessing) - Knowledge (Data Mining) - Decision Support
- 较好的商业软件:www.ibm.com SPSS
DM 技术问题
分类问题
- 算法
- 决策树
- K-Nearest Neighbours
- 神经网络
- Support Vector Machines
ROC 分析中,分类器的 AUC 趋近于 1 更好
####
聚类问题
- 聚类需要靠聚类度量
- 算法
- K-Means
- Sequential Leader
- Affinity Propagation
- 应用
- 买了面包、牛奶,就很可能买黄油
预处理
- 类型问题
- 数据质量
GIGO:数据预处理是大楼的地基,没有良好的数据预处理就没有良好的上层建筑。
DM 局限
- 股票的数据挖掘,由于模型的输入无法衡量、也无法确定(比如国家政策等),所以无法做 DM
- 数据的相关性需要非常谨慎,比如天猫销售的未必真实的结论,由于缺少时间维度,正相关和负相关都能说通。
- 数据挖掘是用来在数据中寻找规律的手段,但也存在幸存者偏差和盲人摸象。所以,依旧需要客观、全面地了解真实“业务”情况。