任务
知识点
机器学习主要是干什么?
在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”,有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型就会给我们提供相应的判断,如果说计算机科学是研究关于”算法”的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问。
基本术语
样本:也称为“示例”,是关于一个事件或对象的描述。计算机通过向量把现实生活中的事物抽象为计算机能理解的形式,因为任何事物都可以由若干“特征”(或称为“属性”)唯一刻画出来,而向量的各个维度即可用来描述各个特征。(向量中的元素用分号“;”分隔时表示此向量为列向量,用逗号“,”分隔时表示为行向量)
例如:西瓜三个特征:色泽、根蒂和敲声,向量表示即为 x =(青绿; 蜷缩; 清脆)
样本空间:表示样本的特征向量所在的空间为样本空间,通常用花式大写的 X 表示。
数据集:数据集通常用集合来表示,令集合 D = {x1, x2, …, xm} 表示包含 m 个样本的数据集。
模型:机器学习的一般流程如下:首先收集若干样本(假设此时有 100 个),然后将其分为训练样本
(80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为“训练集”,20 个测试样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。
标记:上文提到机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方
面的信息为“标记”。例如在学习西瓜的好坏时,“好瓜”和“坏瓜”便是样本的标记。一般第 i 个样本的
标记的数学表示为 yi,标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标
记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。
根据标记的取值类型不同,可将机器学习任务分为以下两类:
• 当标记取值为离散型时,称此类任务为“分类”。
• 当标记取值为连续型时,称此类任务为“回归”。
根据是否有用到标记信息,可将机器学习任务分为以下两类:
• 在模型训练阶段有用到标记信息时,称此类任务为“监督学习”,例如第 3 章的线性模型;
• 在模型训练阶段没用到标记信息时,称此类任务为“无监督学习”,例如第 9 章的聚类。
泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确
与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。
分布:此处的“分布”指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布”D,而我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布”。
模型评估与选择
错误率:E =a/m ,其中 m 为样本个数,a 为分类错误样本个数。
精度:精度 =1-错误率。
误差:学习器的实际预测输出与样本的真实输出之间的差异。
经验误差:学习器在训练集上的误差,又称为“训练误差”。
泛化误差:学习器在新样本上的误差。
评估方法
3 种模型评估方法:留出法、交叉验证法、自助法。留出法由于操作简单,因此最常用;交叉验证法常用于对比同一算法的不同参数配置之间的效果,以及对比不同算法之间的效果;自助法常用于集成学习,产生基分类器。留出法和自助法简单易懂。
留出法:直接将数据集D划分为两个互斥的集合,其实一个集合为训练集S,另一个作为测试集T。在S上训练模型后,用T来评估其测试误差,作为对泛化误差的估计。常用比例:2:3、4;1
交叉验证法:先将数据集划分为k个大小相似的互斥子集,选一个子集作为测试集,其余k-1个子集的并集为训练集,最终评估结果是训练次数的测试结果求平均。
极端情况K=样本数,即留一法,不受样本划分方式的影响,但样本数较大时训练开销过大
自助法:给定包含m个样本的数据集D,我们对它进行采样产生数据集D1,我们可将D1用作训练集,D或D1作为训练集。
验证集:带有参数的算法一般需要从候选参数配置方案中选择相对于当前数据集的最优参数配置方案,例如支持向量机的参数 C,一般采用的是前面讲到的交叉验证法,但是交叉验证法操作起来较为复杂,实际中更
多采用的是:先用留出法将数据集划分出训练集和测试集,然后再对训练集采用留出法划分出训练集和新
的测试集,称新的测试集为验证集,接着基于验证集的测试结果来调参选出最优参数配置方案,最后将验
证集合并进训练集(训练集数据量够的话也可不合并),用选出的最优参数配置在合并后的训练集上重新训练,再用测试集来评估训练得到的模型的性能。
性能度量
常用的有错误率、精度、查准率、查全率、F1、ROC 和 AUC。
混淆矩阵:
查准率 P:被学习器预测为正例的样例中有多大比例是真正例。
查全率 R:所有正例当中有多大比例被学习器预测为正例。
查准率和查全率是一对矛盾的度量,查准率越高,查全率往往偏低,查全率高时,查准率往往偏低。
查准率-查全率曲线(P-R曲线):
曲线以下面积越大,性能越好
平衡点:查准率==查全率时的值越高,性能越好
F1度量:
有多个二分类混淆矩阵时,宏查准率(macro-P)、宏查全率(macro-R)、以及相应的宏F1(macro-F1):
微查准率(micro-P)、微查全率(micro-R)、以及相应的微F1(micro-F1):
ROC和AUC
ROC全称是“受试者工作特征”曲线,根据学习器的预测结果对样例进行排序,按此顺序 逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以他们为横、纵坐标作图,纵轴为真正例率(TPR),横轴是假正例率FPR。
AUC(Area Under ROC Curve)就是通过ROC曲线下各部分的面积求和而得。
转载:https://blog.csdn.net/weixin_44195690/article/details/129005012