30个学习大数据挖掘的重要知识点!建议收藏

论坛 期权论坛     
选择匿名的用户   2021-5-28 02:12   0   0
<p><img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-e65e59a175f1635ed82dd6918e5a1dd6"></p>
<p>下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。</p>
<p> </p>
<p>1. 数据、信息和知识是广义数据表现的不同形式。 </p>
<p> </p>
<p>2. 主要知识模式类型有:<strong>广义知识,关联知识,类知识,预测型知识,特异型知识</strong></p>
<p> </p>
<p>3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘</p>
<p> </p>
<p>4. 一般地说,KDD是一个多步骤的处理过程,一般分为<strong>问题定义、数据抽取、数据预处理,</strong>数据挖掘以及模式评估等基本阶段。</p>
<p> </p>
<p>5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型。</p>
<p> </p>
<p>6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。</p>
<p> </p>
<p>7. 决策树分类模型的建立通常分为两个步骤:<strong>决策树生成,决策树修剪。</strong></p>
<p> </p>
<p>8. 从使用的主要技术上看,可以把分类方法归结为四种类型:</p>
<p> </p>
<p>基于距离的分类方法</p>
<p> </p>
<p>决策树分类方法</p>
<p> </p>
<p>贝叶斯分类方法</p>
<p> </p>
<p>规则归纳方法</p>
<p> </p>
<p>9. 关联规则挖掘问题可以划分成两个子问题:</p>
<p> </p>
<p>发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。</p>
<p> </p>
<p>生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。</p>
<p> </p>
<p>10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:</p>
<p> </p>
<p>数据库等信息技术的发展</p>
<p> </p>
<p>统计学深入应用</p>
<p> </p>
<p>人工智能技术的研究和应用</p>
<p> </p>
<p>11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:</p>
<p> </p>
<p> </p>
<p>准确性:挖掘出的规则必须反映数据的实际情况。</p>
<p> </p>
<p>实用性:挖掘出的规则必须是简洁可用的。</p>
<p> </p>
<p>新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。</p>
<p> </p>
<p>12. 约束的常见类型有:</p>
<p> </p>
<p>单调性约束;</p>
<p> </p>
<p>反单调性约束;</p>
<p> </p>
<p>可转变的约束;</p>
<p> </p>
<p>简洁性约束.</p>
<p> </p>
<p>13. 根据规则中涉及到的层次,多层次关联规则可以分为:</p>
<p> </p>
<p>同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。</p>
<p> </p>
<p>层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规则。</p>
<p> </p>
<p>14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。</p>
<p>划分法:基于一定标准构建数据的划分。</p>
<p> </p>
<p>属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。</p>
<p> </p>
<p>层次法:对给定数据对象集合进行层次的分解。</p>
<p> </p>
<p>密度法:基于数据对象的相连密度评价。</p>
<p> </p>
<p>网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。</p>
<p> </p>
<p>模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。</p>
<p> </p>
<p>15. 类间距离的度量主要有:</p>
<p> </p>
<p>最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。</p>
<p> </p>
<p>最长距离法:定义两个类中最远的两个元素间的距离为类间距离。</p>
<p> </p>
<p>中心法:定义两类的两个中心间的距离为类间距离。</p>
<p> </p>
<p>类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和。</p>
<p> </p>
<p>16. 层次聚类方法具体可分为:</p>
<p> </p>
<p>凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。</p>
<p> </p>
<p>分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。</p>
<p> </p>
<p>层次凝聚的代表是AGNES算法。层次分裂的代
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP