学堂在线,《数据挖掘:理论与算法》 学习简单记录。

语雀地址:https://www.yuque.com/zhoukekestar/diqlmd/qzk5ng

数据挖掘:理论与算法

第一章

教育与学习

数据领域是门综合性学科,主要包含了 人工智能(AI)、机器学习(ML)、模式识别、统计学等。平时,Data Mining 还可能被称为:BI(Business Intelligence)、DA(Data Analytics)、Big Data、Decision Support、CRM 等。

在学习过程中,老师更多的是领路人的角色,学生需要自己去思考、探索。

为什么要学 DataMining? (2010年左右)过去两年的数据量占所有数据量的 90% 以上,一方面随着技术的发展,存储的瓶颈得以突破,另一方面,随着各种软件和 IOT 技术的蓬勃发展。

DRIP:Data Rich Infomation Poor

怎么学习

学习方式:

学习三部曲:

  • 学习、讨论
  • 扩展、激发灵感
  • 动手做、应用

数据与大数据的定义

数据的定义 form WikiPedia: Data are characteristics or information, usually numerical, that are collected through observation.[1] In a more technical sense, data are a set of values of qualitative or quantitative variables about one or more persons or objects, while a datum (singular of data) is a single value of a single variable.[2]

数据

  • 有不同类型:连续、字符串等
  • 有不同的存储类型:物理(磁盘上的 01)、逻辑(二叉树)
  • 核心问题与挑战:数据转换、数据有效性(错误、缺失等)

大数据的定义:

  • Gartner
    • 三大核心特性:volumn(数据量大)、velocity(数据产生速度快)、variety(数据类型多)
  • Mckinsey
    • 数据规模大到传统数据库无法存储、管理和分析

数据挖掘应用

  • 美国 Houston 的犯罪分析
  • 个性化的医疗诊疗方案
  • 城市规划
  • 基于 LBS 的商超布局优化
  • 目标化营销、精准、分层营销
  • 情感分析

数据开放

开放数据包括技术上、法律上。 传统的信息化导致了很多的数据孤岛,许多信息也掌握在政府手中,所以政府的数据开放尤为重要:

image.png

数据挖掘的定义

Form Wiki: Data mining is a process of discovering patterns in large data sets involving methods at the intersection of machine learningstatistics, and database systems.[1] Data mining is an interdisciplinary subfield of computer science and statistics with an overall goal to extract information (with intelligent methods) from a data set and transform the information into a comprehensible structure for further use.[1][2][3][4] Data mining is the analysis step of the “knowledge discovery in databases” process, or KDD.[5] Aside from the raw analysis step, it also involves database and data management aspects, data pre-processingmodel and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.[1]

在老师的定义中: 数据挖掘是从 Massive、Imcomplete、Noisy 的数据中自动化提取 interesting、useful hidden 模式的过程。

就业前景分析,www.jobui.com

岗位 岗位梳理 工资收入
数据    
270*13=3510 image.png image.png
前端    
250*13=3250 image.png image.png
算法    
75*22=1650 image.png image.png

商业智能是目前数据挖掘最有前景的岗位:

  • Data (DataBase) - Infomation (Preprocessing) - Knowledge (Data Mining) - Decision Support
  • 较好的商业软件:www.ibm.com SPSS

DM 技术问题

分类问题

  • 算法
    • 决策树
    • K-Nearest Neighbours
    • 神经网络
    • Support Vector Machines

      ROC 分析中,分类器的 AUC 趋近于 1 更好

####

聚类问题

  • 聚类需要靠聚类度量
  • 算法
    • K-Means
    • Sequential Leader
    • Affinity Propagation
  • 应用
    • 买了面包、牛奶,就很可能买黄油

预处理

  • 类型问题
  • 数据质量

GIGO:数据预处理是大楼的地基,没有良好的数据预处理就没有良好的上层建筑。

DM 局限

  • 股票的数据挖掘,由于模型的输入无法衡量、也无法确定(比如国家政策等),所以无法做 DM
  • 数据的相关性需要非常谨慎,比如天猫销售的未必真实的结论,由于缺少时间维度,正相关和负相关都能说通。
  • 数据挖掘是用来在数据中寻找规律的手段,但也存在幸存者偏差和盲人摸象。所以,依旧需要客观、全面地了解真实“业务”情况。