www.4329.com www.4331.com 新火娱乐 大发888网站
您的位置:彩虹心水论坛 > 彩虹心水论坛 > 正文
彩虹心水论坛

机械进修中决策树的道理取算法 科普

日期:2019-04-14 人气:

  说了这么多笼统的概念,那决策树到底能够用来处置什么样的问题,那我们通过一个现实的例子来展开决策树的,而且为了让大师更好入门,我也选择了一个十分简单的情景。

  引见了三个概念,我们就能够回覆正在构制决策树的时候碰到的第一个问题了:根结点放置哪个前提属性。

  此中,树 T 的叶节点个数为 T ,C(T) 暗示模子对锻炼数据的预测误差,即模子取锻炼数据的拟合程度, T 暗示模子复杂度,参数 α 是一个非负数,节制两者之间的影响。

  雷锋网按:本文做者栗向滨,中科院从动化所复杂系统国度沉点尝试室研究生结业,机械进修取计较机视觉标的目的算法工程师。雷锋网首发文章。

  通过计较,我们看到小明能否迟到这个属性的前提消息熵最小,那么我们就将这个属性做为根结点。所以决策树的的雏形如下图。

  由于我们正在一曲最小化前提消息熵,所以当我们发觉所有特征的消息增益均很小,或者我们没有特征能够选择了就能够遏制了。至此我们就建立出了我们的决策树。

  我们能够认为决策树就是一种 if-then 法则的调集,也能够理解为它是定义正在特征空间取类空间上的前提概率分布。既然是if-then法则,那么决策树具有一个主要的性质就是:互斥而且完整,也就是说每一个实例都被一条径或一条法则所笼盖,并且只被一条径或一条法则所笼盖。

  我们能够看到,这个图像所表达出来的消息和我们之前举的例子完全对应,当一个工作很是容易判断的时候,也就是我们以很大的概率认为它会发生或者不会发生,那么它的消息熵就方向0,当一个工作很是难判断的时候,我们能够认为最难的时候就是这个事务的所有可能性均相等的时候,那么它的消息熵为1.

  之所以会发生过拟合,是由于我们正在进修的过程中过多地考虑若何提高对锻炼数据的准确分类上,所以有的时候就会建立出过于复杂的决策树。而决策树一旦复杂,对测试数据的分类就没那么切确了,也就是过拟合。所以按照奥卡姆剃刀的,要对决策树进行简化,这个过程就叫做剪枝。

  假如小明上班能够选择两种交通东西,一种是网约车打车上班,一种是骑共享单车上班。采纳这两种路子中的哪一种取决于三个要素,一个是气候环境,气候假设可分为恶劣气候和非恶劣气候,另一个要素是小明的表情,表情分为好表情和坏表情,最初一个要素是小明能否将近迟到。假设三个要素对应的小明上班体例的环境如下表:

  晓得了根结点的放置方式,那么第二个问题也就送刃而解了,下面的结点放置哪个属性。我们只需要将曾经获得的结点看做一个新的根结点,操纵最小化前提消息熵的方式即可。我们将小明并不会将近迟到做为一个前提,那么表格如下

  它确定了要编码调集 S 中肆意(即以平均的概率随机抽出的一个)的分类所需要的起码二进制位数。

  操纵这段法式大师能够看一下这颗决策树对气候恶劣,表情欠好,可是时间还充脚的环境下小明会选择哪种交通东西进行出行进行的预测。正在这先偷偷地告诉你,AI 给出的谜底如下图

  的引见的都是从字面上能够理解出的一些概念,性质上来讲,决策树是一个预测模子,它代表的是对象属性取对象值之间的一种映照关系。树中每个结点暗示某个对象,内部结点暗示一个特征或属性,叶结点暗示一个类,而每个分叉径则代表某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所履历的径所暗示的对象的值。

  消息熵暗示判断难度,有了前提两个字就是说我们曾经晓得了一个前提之后,再让你判断变量成果,这时候的难度就是就是前提消息熵。就像的例子,我们发觉只需小明发觉他要迟到了,那么他就会打车上班,所以当我得知了小明今天将近迟到了,那么我判断他能否打车这件事就很是容易了,那么此时的前提消息熵就能够认为是0,这就是前提消息熵。若是仍然采用喷鼻农的定义方式,那么前提消息熵的数学表达式就是

  需要进行注释的一点就是,我们需要将的情景进行了数据化,我们将的环境都做为0和1来代表进行决策树的建立。所以新的表格如下所示:

  说实话,其时的我理解这句话是费了不少劲,其实把它成通俗点的言语就是说,消息熵就是“预测随机变量Y的取值”的难度,或者说怀抱“随机变量Y”的不确定性。

  再举一个例子,假如让你判断一枚匀质的硬币抛出后反面朝上仍是朝上,这个问题我们就比力难回覆了,由于反面朝上和朝上的概率均等,我们不克不及有一个很确定的判断硬币到底哪个面朝上,那么这个时候判断就比力难了,所以此时的消息熵就能够认为是1。

  通过决策树我们很容易判断出气候恶劣、小明表情欠好可是上班时间又比力丰裕的环境下,小明的出行体例是选择打车。

  我们晓得,正在机械进修中有两类十分主要的问题,一类是分类问题,一类是回归问题。我们今天所要切磋的就是正在分类和回归问题中所用到的一种很是根基的方式,叫决策树。决策树也是主要的标签进修方式。这篇文章里面的部门内容来自于AI 慕课学院的《机械进修理论取实和高级特训班》课程笔记。

  此中,t 是树 T 的叶结点,该叶结点有 Nt个样本,此中k类的样本点有 Ntk个,k=1,2,…,K。

  有了消息熵和前提消息熵的概念,那我们就天然而然地就能够引出第三个概念,那就是消息增益,消息增益的数学定义是

  可是这段话怎样成数学的言语进行定义和描述呢,有良多学者都提出了他们认为的消息熵表达式,我们能够通过下面这个表格看一下目前的一些消息熵的定义。

  虽然有这么多的定义,但我们日常平凡良多环境下用的都是喷鼻农消息熵,所以接下来我也采用喷鼻农消息熵对下面的其他定义进行表述。

  现正在我们曾经有了消息熵的概念,那么我们再引入第二个概念,这个概念需要成立正在消息熵之上。那就是前提消息熵。有了消息熵的概念之后,我们天然而然就能够得出前提消息熵的概念,前提消息熵就是怀抱“正在随机变量X的前提下,预测随机变量Y”的难度。

  有个的表达式就能够进行最小化丧失函数的计较了,从叶结点起头递归地向上计较丧失函数,若是一组叶结点回到其父结点之前取之后的全体树别离为 TB 取 TA,其对应的丧失函数别离为 Cα(TB)取Cα(TA),若是

  我们看到气候要素的前提消息熵最小,为0,那么我们下一个节点就体例气候要素。这个时候其实我们就能够竣事决策树的发展了,为什么呢?那么我们怎样判断什么时候竣事决策树的发展呢?

  第一个引入的概念叫消息熵,英文名为 Entropy。正在 Tom Mitchell 的书中是如许注释消息熵的:

  这个表格就是我们所说的样本集,细心的读者可能会发觉,的样本集少了一种环境,即气候恶劣、小明表情欠好可是上班时间又比力丰裕的这种环境,没错,我居心省去这一组就是想让这一构成为测试集,让大师通过建立一个决策树来预测正在这种环境下,小明会采纳哪一种体例上班。

  课程采用 “摸索+实践” 的硅谷讲授模式,让你从一个外行人敏捷进入深度进修工程师的脚色,去完成一个接着一个的项目挑和。最风行的深度进修技术,正在这里你城市逐个体验,学完整个课程,CNN、RNN、VGG16、ResNet、InceptionCNN 这些最新科技你城市随手捏来,弹指一挥间,快速建立你的深度进修使用不再是一个梦。

  通过两个例子来注释。假如你正在地球上,手里握着一个铁块,当你不合错误铁块施力而间接松手的环境下,请你判断它是会向下坠落,仍是向上飞去,按照我们的常识我们能很容易判断出石块会下落,那么判断这个工作的成果就很是容易,那么此时的消息熵就能够认为是0。

  我们通过看这个数学表达式不难看出消息增益所表达的意义。被减数是消息熵,也就是正在没人给我们通风报信的时候判断成果的难度;减数是前提消息熵,也就是当我们晓得了一个前提后,判断成果的难度。消息增益这个变量表达的意义就是前提x对判断成果削减了几多难度,即怀抱X对预测Y的能力的影响。

  由于一个数据集的消息熵是固定的,所以这个问题就为选择前提消息熵最小的属性,所以我们只需求出前提消息熵最小的属性就晓得根结点了。

  由于决策树的生成正在开源库 OpenCV 曾经有实现,最初我再附上一用 OpenCV 来锻炼我例子的代码,目标也是让大师本人实现一个雷同 Hello World 的法式。OpenCV 的设置装备摆设方式正在这里不再赘述,大师能够操纵下面的代码本人做为。OpenCV 的内部实现过程感乐趣的同窗也能够对源码进行进修,源码也能够正在 OpenCV 的官网上下载到。

  深度进修做为人工智能范畴的黑科技,快速入门一曲以来是良多的胡想。AI 慕课学院正在 6月17日-18日有一个为期 12 小时的深度进修课程,由stai 中文社区最活跃的四位贡献者为你打开深度进修入门的那扇门。

  所以,若何建立一个决策树的方式截止现正在曾经根基上全数引见给了大师,正在学术上,常用的算法有 ID3算法,C4.5算法和 CART 算法,其实这些算法和我引见的方式和思惟根基上完全一样,只是正在选择方针函数的时候有一些不同,我说的是最小化前提消息熵,ID3 用的是消息增益,C4.5 算法用的是消息增益比,CART算法用的是基尼指数,这个指数正在引见消息熵的表格中就有,能够参考。

  名字中的树,顾名思义,就是模子的布局是树形布局,树形布局的次要长处就是可读性较强,分类速度较快。树是由躯干和叶子构成,决策树中的有向边和结点取之对应,此中结点也有两品种型,一种是内部结点,一种是叶结点。

  决策树的道理和算法部门就根基上引见完毕,由于防止模子过拟合也是机械进修中的一个主要议题,所以,我再简单引见一下决策树的剪枝。

  从名字来看,决策的的意义就是正在浩繁类别中我们需要决策出我们分类的工具是属于哪一个类别,决策离散型的值的叫决策树,决策持续型值的叫回归树。用学术一点的言语就是决策树的输出是离散型随机变量,回归树的输出是持续型随机变量,这篇文章的沉点是输出是离散型随机变量的决策树,当你大白决策树的运转机理后,回归树也就触类旁通了。

  就像有一档电视节目叫高兴辞典,当答题选手无法判断谜底的时候会选择三种求帮体例,其实求帮体例就是一种前提,被选手用过了求帮体例后对回覆问题的难度的削减量,就是消息增益。若是难度降低很大,那么我们就能够说消息增益很大。

  相关链接: