|
一、碎碎念
之前一直因为懒,没有把学了的给整理下来,现在慢慢补起来。 二、数据挖掘概述 1.什么是数据挖掘? 数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。 eg:啤酒与尿布、杜蕾斯与口红、杜蕾斯与红酒。==>达到增加商品销售的目的。 
数据挖掘误区: 【实际】: 1.数据挖掘是人们处理商业问题的某些方法,我们通过它来获得更有价值的结果。 2.实际上,最好的数据挖掘工程师是熟悉和理解业务的人。 2.数据分析和数据挖掘的区别是什么?

3.模型与算法
3.1模型:(包含一种或多种算法) 定量:数学公式(Y = a*X)
定性:规则(年龄>30岁 and 收入>1万元) 3.2算法:实现数据挖掘技术、模型的具体步骤与方法。(结合编程解决) 三、数据挖掘常见问题 
3.1分类问题: 
3.1.1常见的分类方法:==>解决(用户流失、促销活动响应、用户信用评估) 1)决策树 2)贝叶斯 3)KNN 4)支持向量机 5)神经网络 6)逻辑回归
…… 3.2聚类问题: 聚类的目标事先未确定。==>物以类聚的原理,将类似的事物归类的方法。 
3.2.1常见聚类算法:==>解决(目标市场细分、现有客户细分) 1)划分聚类 2)层次聚类 3)密度聚类 4)网格聚类
5)基于模型聚类
…… 3.3关联分析:(购物篮分析) 
3.3.1关联常见算法:==>解决(哪些商品同时购买几率高、如何提高商品销售和交叉销售) 1)Aprior算法 2)Carma算法
3)序列算法 3.4预测分析: 
3.4.1预测常见方法==>(未来气候、GDP增长、收入用户数预测、……) 1)简单线性回归分析 2)多重线性回归分析 3)时间序列
…… 四、数据挖掘流程 CRISP-DM数据挖掘方法论:(循环探索过程)

4.1阶段一:商业理解(了解项目要求和最终目的) 1)确定商业目标 2)确定挖掘目标
3)制定项目方案 4.2阶段二:数据理解 对企业内外部数据摸底,了解数据质量。 
4.3阶段三:数据准备 
4.4阶段四:模型构建

4.5阶段五:模型评估

4.6阶段六:模型部署 
|