1.机器学习简介
1.0引入
前IBM员工Samuel写了一个西洋棋程序(为什么总是棋类)。这个程序就具有“自我学习能力‘,能够在对战中提高自己的能力。
以及最近几年世人皆知的AlphaGo。都是机器学习系统
1.1概念
经典的定义:A program can be said to learn from experience with respect to some class of tasks and performance measure , if it’s performance at tasks in, as measured by ,improves with experience—Tom Mitchell
通俗的理解;如果一个程序在使用已有的经验执行某一个任务的过程中,被认为是具备学习能力的,那么他就具有能够利用现有的经验不断改善自身完成此任务的性能特质。
重点:已有的经验,具备学习能力的程序。完成某一任务。不断提高的性能。
因此在这样一个系统中,必须具备的要素是:经验(E),任务(T),性能(P)
1.2机器学习系统的特点
从西洋棋到围棋,这样的机器学习系统都具有一定的特点:
(1)这类系统解决的都是无法直接用固定规则解决的问题
(2)具有学习能力。这里的学习能力指的是此类系统可以从经历和数据中学习到经验和教训,从而面对未来的任务的能力—对未来的预测能力称为泛化力(generalization)
(3)具备不断改善自身应对具体任务的能力—性能
1.3从机器学习系统的三个要素理解机器学习
1.3.1任务 TASKS
任务种类很多,经典的有监督学习和无监督学习。
(1)监督学习:侧重于对事物未知表现得预测
可以认为,监督学习是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。训练完成后,可以利用结果进行未知事物得预测。
监督学习一般分为两类:分类和回归
①分类:对一个事物所在的类别进行预测。此方法的缺点是此事物必须要属于某个已知的类别。如果是一个全新类别,就无法进行准确分类
②回归:其实也是一个预测问题,但是目标一般是一个连续的目标。例如:一个房子的房价很可能和楼层a,地铁距离b,面积c等有关。那么房价p就是一个关于a,b,c的一个量。一般来说是会能够有一个式子联系起来的。
(2)无监督学习:侧重于事物本身的特性
对于一些没有进行标记(未知类别的数据或事物),进行事物特性的分析。对相似的特性进行类别的划分。
①数据降维:对数据特性进行压缩和筛选。例如一个识别人脸的任务,直接将所有像素信息进行对比是非常困难的。不过如果使用数据降维的技术,抽取关键数据,则可以减少很多工作量。
- Wiki:在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程
- 降维可进一步细分为变量选择和特征提取两大方法
- 进一步解释变量选择和特征提取:前者是假定数据中包含大量冗余或无关变量(或称特征、属性、指标等),旨在从原有变量中找出主要变量。后者是特征提取可以看作变量选择方法的一般化:变量选择假设在原始数据中,变量数目浩繁,但只有少数几个真正起作用;而特征提取则认为在所有变量可能的函数(比如这些变量各种可能的线性组合)中,只有少数几个真正起作用。
②聚类
依赖数据的相似性,将相似的数据样本划分为一个簇
1.3.2经验
(1)通常就是我们采集到的数据,对于预测类问题,数据分成了 训练集(training set)和 测试集(testing set),两者是互斥的。即一条数据不能同时出现在两个集合中。另外,对于监督学习的任务上,数据通常分为 特征(Feature)和标记/目标(label/target)。即特征和所处类别。(如果是回归分析就是自变量和因变量)
(2)对于经验(数据)来说,通常会存在大量的不同种数据类型,如类别型,数值型,甚至缺失的数据,这些数据需要清洗和处理,在具体的处理环节中称为 数据清洗。
1.3.3性能
就是评价完成任务质量的指标。具体表现如下:
(1)预测类型的任务:用正确率来评价性能
(2)回归问题:一般会用偏差来衡量,具体不同的任务,偏差计算方法也不尽相同
1.4总结
通过对于机器学习的例子引入,了解机器学习系统的特性,以及经典定义。另外从机器学习系统的三个要素:任务、经验、性能。解释和进一步学习了机器学习系统的概念。加深了对于机器学习系统的理解。
本文出现的术语有:(可以对照术语进行回顾)
(1)泛化力(generalization):对未来的预测能力
(2)性能(performance):具备不断改善自身应对任务的能力,这样的能力成为性能
(3)监督学习与无监督学习(supervise、unsupervised learning)
(4)分类、回归分析、数据降维以及聚类(classification、regression、dimensionality reduction and clustering)
(5)训练集(training set) 测试集(testing set)
(6)特征(feature)、标记/目标(label/target)
本人所写本篇博客参考《Python机器学习及实践–从零通往kaggle竞赛之路》(范淼老师、李超老师),《机器学习》(周志华老师)、斯坦福大学公开课–《机器学习》(吴恩达老师)。
如有侵权或未注意事项,敬请联系。
转载:https://blog.csdn.net/xiaotang_sama/article/details/90734596