小言_互联网的博客

以Airbnb、Netflix为例,谈谈数据科学的角色和分类

542人阅读  评论(0)

全文共2804字,预计学习时长6分钟

图片来源:Unsplash,Nathan Dumlao摄

数据科学不是单一的学科,它集合了技术、人类好奇心和特定领域知识不断向前发展。同样,数据科学家的头衔也不是一个单一的角色,其本质上是一个包罗万象的术语,涵盖了广泛的知识体系、复杂的技能和职责。亚历山大·埃金斯在其列出的30个数据科学术语释义中引用了美国第一位首席数据科学家帕蒂尔的话:

数据科学家是一种独特的技能融合体,他们既能洞悉数据,又能通过数据讲述奇妙的故事。

 

本文将介绍一些团队尝试对各种数据科学角色进行分类的方法。重点讲述两个拥有成熟数据科学项目的大公司的职位名称是如何组织的,并将从一个小型企业的数据科学家的视角介绍一些基本的非技术技能,同时将阐述行业从业者和思想领头人对数据科学的看法。

Airbnb

截至2018年,Airbnb共雇佣了126名数据科学家,而2010年仅有一名。

图片由Elena Grewal博士提供

Airbnb的数据科学主管Elena Grewal博士于2018年在LinkedIn上发布了《数据科学的工作并不适合所有人》一文,文中描述了Airbnb公司内部的快速发展(以及行业内标准术语匮乏)是如何促成发展转折点的:

 

在一个公司中,这种多样性的缺点可能导致组织混乱和人员流动,因为合作团队不知道该从数据科学家那里期待什么,而数据科学家可能也不清楚自身的定位。

 

为了缓解这一问题,Airbnb团队制定了战略,有意创造符合业务和人才需求的角色,同时也实现了明确的预期。最终,数据科学的角色沿着三个轨道进行了重组:

图片由Elena Grewal博士提供

团队中的每一位数据科学家都应该在通用数据科学框架下的三个专业领域中有至少一个专长领域:

· 分析 —— 仪表板和可视化,数据探索和分析,可通过提出问题并给出建议来推动业务发展

· 算法 —— 机器学习,可通过生产数据来创造商业价值

· 推论 —— 统计学、经济学及社会科学,可改进决策和衡量影响力

虽然这种水平的数据科学专业对Airbnb这样的“高速发展”的公司很有效,但Grewal建议规模较小的公司应从更为普遍的方法入手。

Netflix

Netflix依靠数据为全球1.3亿Netflix用户提供个性化体验。据Netflix官方博客称:

每天有超过1万亿的事件被写入流媒体摄入管道,经过处理再写入一个100PB的云本地数据仓库。每天,用户根据这些数据运行超过15万个任务,涉及从报告和分析到机器学习和推荐算法的方方面面。

为了支持这一庞大的事业,Netflix雇佣了许多数据专业人员,主要包括三类:分析师、工程师和科学家:

图片来源:Netflix 官方微博

虽然工作名称完全符合每个类别,但不同角色之间的工具和职责可能有一些重叠。

图片来源:Netflix 官方微博

每个类别的数据专业人员可能会使用至少两个以下数据科学领域的技能:

· 数据探索——(在项目早期发生)——查看样本数据、运行查询、统计分析、探索性分析和可视化

· 数据准备——(迭代任务)——清理、标准化、转换、反规范化和聚合数据

· 数据验证——(重复任务)——查看样本数据、运行查询、统计分析、聚合分析,以及用于数据探索、数据准备、开发、部署前和部署后的可视化

· 产品化——(在项目后期发生)——将代码部署到生产、回填数据集、训练模型、验证数据和调度工作流

像Netflix这样的大公司可能会为许多工作角色界定清晰明确的数据专业人士提供“奢侈品”。与此同时,数据的绝对数量和复杂性可能要求每个数据科学家除了具备专业技能外,还要掌握一些通用的交叉知识。

那么小型企业呢?

Shubh Loans首席数据科学家Oriol Mirosa在文章《小型企业的数据科学》中,就小型企业的数据科学家为何应特别关注非技术工作提出了观点。虽然Oriol Mirosa承认技术技能是必不可少的,但也认为,特定的软技能会是成功的关键指标。

对于小型企业的数据科学家,如果公司基础设施和明确的数据项目还没有完全开发好,Oriol有以下几点建议:

1.不断询问数据

2.不断咨询问题

3.不断提出疑问

4.不断寻求帮助

5.找机会分享心得

批判性思维、好奇心、创造力和进取心是做这五件小事所必需的,绝不能低估!这种逐个研究数据的方法有利于数据科学家获得领域知识,理解业务数据和问题,并构思更好的业务指标和数据产品。与利益攸关方密切合作所获得的信誉也将使公司更容易获取所需资源,以便在未来构建基础设施、数据和模型。

超越算法的数据科学

机器学习工程师的兴起

Emmanuel Ameisen在一篇关于2018年人工智能发展趋势的文章中表示:

 

在招聘方面,硅谷各地团队的招聘经理最常抱怨的是,尽管能在数据集训练模型的人才并不短缺,但他们需要的是能够构建数据驱动产品的工程师。

虽然数据科学家将执行构建机器学习模型所需的数据处理和统计分析,但可能并不总是具备将原型模型集成到生产环境中所需的技能。机器学习工程师的专业技能越来越多地在这里得以利用。

图片由Tomasz Dudek提供

机器学习工程师Tomasz Dudek解释道:

 

……必须有人把所有的“数据科学”和“软件”联系在一起。采用经过训练的模型,使其在高质量的生产环境中工作。安排批量作业,重新计算透视表。实时服务模型并监控其在野外的性能。这正是机器学习工程师的闪光点所在。

图片由Tomasz Dudek提供

数据科学相关技能

如前一节所述,有远见的数据科学家可能会考虑扩展自身能力,包括机器学习工程师必备的类似技能。一些受欢迎的技能包括:

· Docker —— 用于打包和部署定制应用程序的容器,包括所有必需的库依赖项

· Spark —— 用于大规模数据处理的统一分析引擎

· Pickling —— 未来存储对象、函数和类的方法

图片来源:Unsplash,Reka Biro-Horvath摄

未来验证数据科学家的角色

行业从业者和思想领头人Vicki Boykis 提醒道:

作为一名数据科学家,调优模型、可视化和分析是日常的一部分,而数据科学主要是在一个地方获得纯净数据,用于插值。

 

对于希望“未来证明”自己职业生涯的数据科学家,推荐以下三项技能:

1.学习SQL

2.熟练掌握(程序性)编程语言

3.学习如何在云端工作

图片来源:Unsplash,Dallas Reedy摄

Airbnb的数据科学主管Elena Grewal博士提供了一种思路,有利于围绕标准分类术语的发展展开对话:

在数据科学领域,我们越能联合起来建立规范,行业就会越迅速成熟,人们就越有能力驾驭它。

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)


转载:https://blog.csdn.net/duxinshuxiaobian/article/details/101280222
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场