专栏开篇:
如今AI大放异彩,有人称其为“第四次工业革命”,人工智能的概念和应用已经逐渐渗入我们的生活,其中机器学习作为人工智能领域的关键技术,获得了越来越多的关注。开此专栏记录自己学习机器学习的过程,也借写博客的方式督促自己的学习,目前的规划是首先学习李宏毅老师的机器学习视频课程,之后进行机器学习实战项目的学习,所以本专栏前半部分以基础知识为主,后半部分以具体项目为主,也希望大家可以留言多多交流,写的不对的地方多多指正。
机器学习的概念:
人工智能顾名思义就是把人的智慧赋予机器,也是我们想要达成的目标;而机器学习就是帮助我们达成这一目标的方法,手段。深度学习则是机器学习中的一个领域。1980年左右,机器学习得到人们的广泛关注,各种机器学习的算法开始涌现;2010年左右,随着深度学习的兴起,提高了我们对数据特征的提取和抽象的能力,推动了机器学习的进一步发展。
我们有一些常见的机器学习的应用场景,比如语音识别(输入语音,机器将其转化为文字)、图片识别(给定一张图片,可以识别图片中的内容);在这些场景中,我们输入原始数据(语音、图片),机器返回给我们结果。这和我们数学中的函数表达式十分类似,输入是自变量,返回的结果是因变量,所以某种程度上,我们可以认为机器学习就是寻找一个函数进行拟合。比如以图片识别问题,可以形象化的表示为下图:
那么怎么找到这样一个合适的函数 f 进行拟合?
过程总结起来就是三步:
- 我们准备许多备选的函数 f ,构成一个集合,也就是机器学习中的模型(Model)。
- 使用训练数据来衡量这些备选函数的好坏程度。
- 根据训练数据选出拟合最好的函数,作为最终的拟合函数。
机器学习的分类:
根据训练数据是否有标签,可以分为:
- 监督学习:所有训练数据均具有标签(典型的问题有回归:模型输出的是一个具体数值;分类:模型的输出是某一类别)
在监督学习中,常用的模型种类可以分为:线性模型 和 非线性模型。其中,非线性模型应用更加广泛,表达能力也更强,包括深度学习,支持向量机(SVM),决策树,K-NN算法等。
- 半监督学习:训练数据中,部分具有标签,另一部分没有标签(但是没有标签的数据,对于模型的学习也是有用处的)。
- 迁移学习:使用与当前任务无关的数据(可能有标签,可能没有标签)来促进当前模型的学习。
- 无监督学习:训练数据都没有标签。
无监督学习存在的原因是,现实世界中,为训练数据进行标注成本较高,当训练数据都没有标签时,如果我们想要为数据进行分类,只能根据数据的特征进行划分,比如聚类算法。
- 强化学习:训练数据没有标签,智能体从环境交互中进行学习,来更新自身的策略,根据最终环境的反馈(获得的奖励)来调整自身行为。
如果条件允许的情况下,训练数据均有标签,要尽可能进行监督学习而不是强化学习。
转载:https://blog.csdn.net/ProQianXiao/article/details/103665914