第14关 手把手教你构建一棵决策树_人工智能课程 - 小象学院

论坛 期权论坛     
选择匿名的用户   2021-5-23 14:50   84   0
<h3>课程目录 <a href="https://blog.csdn.net/qq_34409973/category_10883102.html">小象学院 - 人工智能</a></h3>
<blockquote>
<p>关注公众号【Python家庭】<span style="color:#f33b45;">领取1024G整套教材</span>、<span style="color:#ffbb66;">交流群学习</span>、<span style="color:#3399ea;">商务合作</span>。整理分享了数套<strong>四位数培训机构</strong>的教材,现免费分享交流学习,并提供<strong>解答、交流群</strong>。</p>
</blockquote>
<p><img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-fa566b7ed41b5b46aae35ce233b688cb"><strong>你要的白嫖教程,这里可能都有喔~</strong></p>
<h1> </h1>
<h1>本关内容概述</h1>
<p> </p>
<p>欢迎来到本关的学习,本关的学习目标是找到一种通用的方法来构建出一棵决策树,准备好了吗?Let&#39;s go!</p>
<p><img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-37325e6ffa622fa417e5b13571a90c7b.png" width="640"></p>
<p>我们先来回顾一下在上一关得到的两个重要结论:</p>
<ul><li> <p>我们做每一步决策时,希望能<strong>最大程度地减少不确定性</strong>;</p> </li><li> <p>我们用信息熵来衡量不确定性:<strong>信息熵越大,不确定性越高</strong>。</p> </li></ul>
<p> </p>
<p>那么,我们再回头看看上一关提出的这个问题:<strong>性别和年龄哪一个特征对于我们的预测更加有效呢</strong>?</p>
<p><img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-924444bd8a4bc42472d1a65012f9a817.png" width="640"></p>
<p> </p>
<h1>信息熵的计算</h1>
<p> </p>
<p>不同于上一关的<strong>观察法</strong>,这里我们将用<strong>更严谨的数学知识</strong>来计算哪个特征更能减少不确定性。</p>
<p> </p>
<p>具体要怎么做呢?很简单,<strong>用原来的不确定性减去划分后的不确定性</strong>!换句话说,就是<strong>用原数据集的信息熵减去划分后的所有数据集的信息熵之和</strong>。当然了,我们希望这个差值越大越好。因为划分前后的差值越大,就表明划分后减小的不确定性越多,也就是把最终结果的范围缩小的越小。</p>
<p> </p>
<p>沿用之前推荐App下载的例子,先计算最开始没有做任何划分之前的信息熵Entropy。</p>
<p>信息熵的表达式:<img alt="" height="30" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-66a4149c217c3cb9f96d809c25942952.png" width="230"></p>
<p>我们把下载王者荣耀定义为事件1,在总的下载记录中事件1有3条记录,所以事件1出现的概率 <img alt="" height="33" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-154c54bf04641ef5010e03e86b41e49a.png" width="108"></p>
<p>我们把下载微信定义为事件2,在总的下载记录中事件2有2条记录,所以事件2出现的概率<img alt="" height="32" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-ad8643ac519f09bb655403eb2e8bbdd3.png" width="105"></p>
<p>我们把下载QQ定义为事件3,在总的下载记录中事件3有1条记录,所以事件3出现的概率<img alt="" height="33" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-76df7131d06cda2ae55144bbf926c1fa.png" width="106"></p>
<p>推荐App下载这个例子中可能发生3个事件:下载王者荣耀、下载微信、下载QQ,所以信息熵计算公式中的n&#61;3。</p>
<p><img alt="" height="28" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-a1c108f512d1b6dd95acbaa5de7f8e27.png" width="578"></p>
<p> </p>
<p>接下来我们要<strong>计算按照性别划分后的不确定性,也就是信息熵</strong>。</p>
<p> </p>
<p>我们先看效果图,然后再看后面的计算过程,这样理解起来更加直观一些。</p>
<p><img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-ffc8089304bc126aa17a06955eef5735.png" width="640"></p>
<p> </p>
<h2>按照性别划分</h2>
<p> </p>
<p>女性下载App的记录有3条,占总下载记录数的<img alt="" height="43" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-67c815f4128130995796619f99918863.png" width="22"></p>
<p>男性下载App的记录也是3条,占总下载记录数的<img alt="" height="43" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-67c815f4128130995796619f99918863.png" width="22"></p>
<p>所以按照性别划分之后的信息熵:<img alt="" height="30" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-69a9ed4278ddaec42ca5d439bbb4ca94.png" width="349"></p>
<p>说明:</p>
<p><img alt="" height="30" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-c17aa3829703ef10a7b3a3458dd9aec8.png" width="129">:表示女性数据集的信息熵</p>
<p><img alt="" height="31" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-2e02ff5e724704aea8c8e050d5a59859.png" width="127">:表示男性数据集的信息
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP