第一章
1.机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。
2.属性张成的空间称为“属性空间”、又“样本空间”、“输入空间”
3.由于空间中的每个点对应一个坐标向量,因此我们也把一个实例称为“特征向量”。
4.拥有了标记信息的实例称为“样例”。y是所有样本的集合,亦称:“标记空间””输出空间”。
5.若我们欲预测离散值,此类学习任务称为“分类”;若预测连续值,称为“回归”。还可对西瓜做“聚类”。
6.根据训练数据是否拥有标记信息,学习任务可分为两大类:监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表。
7.归纳与演绎是科学推理的两大基本手段。
8.现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的。因此,可能有很多个假设与训练集一致,即存在着一个与训练集样本一致的”假设集合”,称之为“版本空间”。
9.任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
10.有没有一般性的原则来引导算法确立”正确的”偏好呢?“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
11.对于任何一个学习算法a,若它在某些问题上比学习算法b好,则必然存在另一些问题,在哪里b比a好。——–NFL定理(没有免费的午餐)。
12.机器学习是人工智能研究发展到一定阶段的必然产物,二十世纪五十年代到七十年代初,人工智能研究处于“推理期”,那时人们以为只要能赋予机器逻辑推理能力。机器就能具有智能。
第二章
13.我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为”训练误差”或”经验误差“,新样本上的误差称为”泛化误差”。
14.当学习器把训练样本学的”太好”了的时候,很有可能已经把训练样本自身的特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。—–过拟合(与之相对:欠拟合—是指对训练样本的一般性质尚未学好。)
15.过拟合是机器学习面临的关键障碍,过拟合无法避免,只能“缓解”,或者说减小其风险。
16.评估方法:①留出法 ②交叉验证法 ③自助法 自助法:数据集较小、难以有效划分训练/测试集时。留出法和交叉验证法:初始数据量足够时。
17.泛化误差可分解为:偏差、方差和噪声之和。
第三章
18.线性模型试图学得一个通过属性的线性组合来进行预测的函数。
19.基于均方误差最小化来进行模型求解的方法称为:“最小二乘法”。
20.对数几率回归函数—对数几率函数(正是这样一个常用的替代函数)方法—极大似然法
21.若将y视为样本正例的可能性,则1-y是其反例的可能性,比值:y / 1-y称为几率,反映了x作为正例的相对可能性。
22.虽然他的名字是”回归”,但实际是一种分类学习方法。优点:1、直接对分类可能性进行建模,无需事先假设数据分布,这样避免了假设分布不准确所带来的问题2、不是仅预测出”类别”,而是可得到近似概率,这对许多需利用概率辅助决策的任务很有用3、对数回归求解的目标函数是人任意阶可导的凸函数,有很好的数学性质,现有许多数值优化算法都可直接用于求取最优解。
23.多分类学习:拆解法(将多分类任务拆解为若干个二分类任务求解),拆分策略:一对一、一对其余、多对多。
第四章
24.每个”内部节点”对应于某个属性上的”测试”。
25.决策树学习的目的是为了产生一颗泛化性能力强,即处理未见示例能力强的决策树。
26.著名的ID3决策树学习算法就是以信息增益为准来选择划分属性。
27.信息增益准则对可取值数目较多的属性有所偏好—-C4.5决策树算法。“增益率”来选择最优划分属性。
28.CART决策树使用“基尼指数”来选择划分属性。
29.剪枝是决策树学习算法对付“过拟合”的主要手段。基本策略:“预剪枝”、”后剪枝”。
30.一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中的所有非叶节点进行逐一考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大很多。
31.连续值处理最简单策略:二分法(对连续属性进行处理,这正是C4.5决策树算法中采用的机制。
32.缺失值的方法:让同一个样本以不同的概率划入到不同的子结点中去。
第五章
33.神经网络是具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
34.神经网络中最基本的成分是:神经元模型,即上述中简单单元。
35.感知机能容易地实现逻辑与、或、非运算。不能解决:异或这样简单的非线性可分问题。
36.每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接,这样的神经网络结构通常称为“多层前馈神经网络”。
37.标准BP算法每次更新只针对单个样例,参数更新得非常频繁。往往需要进行更多次数得迭代。累计BP算法直接针对累计误差最小化,它在读取整个训练集D一遍后对参数进行更新,其参数更新的频率低得多。
38.缓解BP网络的过拟合:早停、正则化。
39.跳出局部极小,从而进一步接近全局最小:1、不同参数初始化2、模拟退火3、随机梯度下降4、遗传算法。
第六章
40.距离超平面最近的这几个训练样本点使(6.3)的等号成立,它们被称为“支持向量”,两个异类支持向量到超平面的距离之和为:公式(P122),它们被称为“间隔”。
41.支持向量机(SVM):公式 P123(6.6)
42.注意到式(6.6)本身是一个凸二次规划问题,能直接用现成的优化计算包求解,但我们可以有更高效的办法—-拉格朗日乘子法。可得到其”对偶问题”。
43.对偶问题求解方法:SMO 这是一个二次规划问题,可使用通用的二次规划算法来求解;然而,该问题的规模正比于训练样本数,这会在实际任务中造成很大的开销,为了避开这个障碍,人们通过利用问题本身的特殊性,提出了很多高效算法,SMO是其中一个很著名的代表。
44.幸运的是,如果原始空间是有限维。即属性数有限,那么一定在一个高维特征空间使样本可分。
45.“核函数选择”成为支持向量机的最大变数,若核函数选择不合适,则意味着将样本映射到了一个不合适的特征空间,很有可能导致性能不佳。
第七章
46.贝叶斯决策论是概率框架下实施决策的基本方法。
47.两种策略:①判别式模型:直接建模,代表–决策树、BP神经网络、SVM
②生成式模型:先对联合分布概率建模,代表–贝叶斯分类器
48.统计学两个学派:①频率主义学派:认为参数虽然未知,但却是客观存在的固定值。贝②贝叶斯学派:认为参数是未观察到的随机变量。其本身也可以分布。
49.为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”,常用“拉普拉斯修正”。
计算题:P4西瓜数据集表1.1(学习通作业)
P30 查准率、查全率、F1 公式 表2.1(作业本)
P33真正例律、假正例率公式
P61 广义瑞利商公式(拉格朗日乘子法)
P75西瓜数据集2.0(表4.1)
P123(6.11)公式对偶问题
最新评论