小言_互联网的博客

读书笔记——机器学习实战英文版

274人阅读  评论(0)

第一章机器学习基础19/9/2019
目标变量分为两种情况,第一种情况是目标变量只能取名义值:真或假;爬行动物、鱼类、哺乳动物、两栖动物、植物、真菌。第二中是目标变量可以接受无限数量的数值时,如0.100、42.001、1000.743、

通过机器学习我们能够通过数据获取洞察力,机器学习就是从数据中得出有意义的事情

啤酒与尿布的例子

机器学习在许多领域都有应用,机器学习使用统计,什么是机器学习中的统计,就是一个问题我们没有足够的结局能力,单凭人力不能模拟问题并给出解决方案,而是用统计能够对问题建立模型利用计算机模拟问题给出结论,通过利用机器学习识别鸟类来介绍什么是机器学习

问题:为什么不能使用一种算法解决所有问题

如何选择算法:如果是要预测某一值,选择监督学习,而选择监督学习如果目标值是多个值的话就要研究分类以及回归。如果不是预测某一直就要选择无监督学习,这样就需要研究集群。你是否需要对每一组的适应度进行一些数值估计?如果你回答是,那么你可能应该研究一种密度估计算法。但这不是一成不变的。

你应该花一些时间去了解你的数据,你对它的了解越多,你就越有能力构建一个成功的应用程序。关于数据需要知道的是:特征是标称的还是连续的?功能中是否缺少值?如果缺少值,为什么缺少值?数据中有异常值吗?有关数据的所有这些特性都可以帮助您缩小算法选择过程。对于什么是最好的算法或者什么会给你最好的结果,没有一个单一的答案。你必须尝试不同的算法,看看它们的表现。您还可以使用其他机器学习技术来提高机器学习算法的性能。

开发机器学习应用程序的步骤

1.收集数据:为了节省一些时间和精力,您可以使用公共可用的数据。
2.准备输入数据:一旦您有了这些数据,就需要确保它是可用的格式。您可能需要在这里做一些特定于算法的格式化。有些算法需要特殊格式的特征,有些算法可以将目标变量和特征作为字符串处理,而有些算法则需要整数。
3.分析输入数据:这是查看来自上一项任务的数据。这可能就像查看文本编辑器中分析过的数据一样简单,以确保步骤1和步骤2实际工作,并且没有一堆空值
4.训练算法:这就是机器学习发生的地方。这一步和下一步是“核心”算法所在,取决于算法。通过前几个步骤可以获得良好的清洁数据
6.测试算法
7.使用它

本书使用的python请确保已安装numpy模块

k邻近算法9.21

k邻近算法就是计算未知数据到所有已知类型数据的距离,选取前k个距离最小的点,其中出现频率最高的类型就是未知数据的类型
以下内容转自:Jack-Cui : http://blog.csdn.net/c406495762

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

举个简单的例子,我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。

表1.1 每部电影的打斗镜头数、接吻镜头数以及电影类型

表1.1就是我们已有的数据集合,也就是训练样本集。这个数据集有两个特征,即打斗镜头数和接吻镜头数。除此之外,我们也知道每个电影的所属类型,即分类标签。用肉眼粗略地观察,接吻镜头多的,是爱情片。打斗镜头多的,是动作片。以我们多年的看片经验,这个分类还算合理。如果现在给我一部电影,你告诉我这个电影打斗镜头数和接吻镜头数。不告诉我这个电影类型,我可以根据你给我的信息进行判断,这个电影是属于爱情片还是动作片。而k-近邻算法也可以像我们人一样做到这一点,不同的地方在于,我们的经验更”牛逼”,而k-邻近算法是靠已有的数据。比如,你告诉我这个电影打斗镜头数为2,接吻镜头数为102,我的经验会告诉你这个是爱情片,k-近邻算法也会告诉你这个是爱情片。你又告诉我另一个电影打斗镜头数为49,接吻镜头数为51,我”邪恶”的经验可能会告诉你,这有可能是个”爱情动作片”,画面太美,我不敢想象。 (如果说,你不知道”爱情动作片”是什么?请评论留言与我联系,我需要你这样像我一样纯洁的朋友。) 但是k-近邻算法不会告诉你这些,因为在它的眼里,电影类型只有爱情片和动作片,它会提取样本集中特征最相似数据(最邻近)的分类标签,得到的结果可能是爱情片,也可能是动作片,但绝不会是”爱情动作片”。当然,这些取决于数据集的大小以及最近邻的判断标准等因素。

转载:https://blog.csdn.net/qq_30312047/article/details/101032260
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场