全文共4937字,预计学习时长10分钟
本文采访了Doordash(美国外卖公司独角兽)的Jeff Li,他分享了没有COMP、SCI或数学学位的人是如何在数据科学领域游刃有余的。
· 采访者: Haebichan Jung, 数据科学家| TowardsDataScience.com.项目组长
· 受访者: Jeffrey Li, DoorDash机器学习领域数据科学家
问题一:你是如何成为一名数据科学家的?
我从事数据科学的背景和大家不一样。大学毕业后,我的第一份工作是技术咨询。虽然这是一份不错的工作,但这不是一份适合我的长期工作。所以在工作之余,我对快速学习很感兴趣,我尝试学习很多不同的技能,其中花了很长时间尝试以打牌谋生。
我当时的目标就是好好打牌挣钱。然而,有一次在玩牌的时候,我输光了所有的钱。对我来说,如果要在一项技能上投入大量的金钱或情感,不妨把它们投资到一项能为他人创造价值的技能上,而不是像在打牌那样,从他人那里获取价值。所以我想继续发挥自己在概率和统计方面的能力。结果,我就踏入了数据科学领域。三年后,成为了Doordash的数据科学家。
问题二:你是如何从打牌的经历过渡到DoorDash的数据科学领域的?
起初,我自学了不少知识,自己写了很多代码。我在大学上过几节统计学课,所以我对线性回归、决策树和随机森林有一些了解。我大概花了六到九个月的时间只做学习这一件事。
然后,我在一家名为Dataquest的初创公司(一家AdTech公司)找到了第一份工作。我为营销团队建设课程、做分析。但我真的想发展我的机器学习技能,我认为这取决于公司是否需要机器学习或实验分析。Doordash有一个专门的机器学习团队,最后我加入了这个团队。
Jeffrey在Dataquest.io上的学习指南
问题三:你在DoorDash参与了什么项目?
在Doordash,我们有三个不同的数据科学领域的团队。分析数据科学家们专注于实验分析、构建面板,和支持特定业务的分析。
机器学习工程师们正在构建更多的基础设施,做大量的建模工作,并对模型进行大量的生产。我的团队,也就是数据科学机器学习团队,处于两者之间。因此,我们正在构建许多侧重于业务影响的模型。我们还在实验分析方面提供帮助,在数据工程和业务分析方面也做了一些工作。
DoorDash的三大数据科学团队
具体来说,我一直在做一些类似于推荐系统的项目,比如添加新功能以向您展示最佳餐馆、建立管道以将推荐信息输入我们的电子邮件,以及营销属性和营销细分。我们还在构建一个预测销售额的模型。
问题四:这三个数据团队是否相互协作?
这在很大程度上真的取决于正在进行的项目。如果项目更加注重工程,比如建立管道以提高效率,就没有必要与业务方面合作。这主要是我们和工程团队之间的一个以工程为中心的项目。
然而,有一些项目,比如对新特性的实验分析,我们需要了解它的影响。这就需要我们与工程部进行更密切的协作,因为他们可以帮助进行实验,同时也需要业务方面的协作,因为有助于了解这个新特性对业务的影响。
因此,Doordash的应聘者似乎应该非常清楚这些不同的角色,以及如何利用自己的优势。
我想说,应该综合利用你的特长和你的经验。如果你在实验分析方面有大量经验,并且想要从事建模领域,那么一定要记住这一点。我认为,一般来说,在科技公司,如果你能清楚地表达你的想法,并用其创造价值,那么你几乎可以胜任任何工作。
例如,你非常擅长统计和分析实验,但是你对机器学习更感兴趣。最好的解决方法是,你可以在公司内部寻找业务上的问题,而机器学习是解决这个问题的最好方法。如果你能向经理表明此解决方案将对业务产生的重大影响,经理很可能会给你这个机会。
问题五:Doordash的申请流程一般是怎样的?
与大多数科技公司相比,申请程序并没有太大的不同。我们的职业网站会有具体的步骤流程。开始公司会与招聘人员进行初步沟通。接下来,你将收到一个评估能力的任务,比如以建立一个机器学习模型,或者完成端到端的过程。如果你表现不错,我们会给你打电话,问你几个关于技巧的问题,了解你做出决定的思维过程。如果全都通过,你就可以来现场面试,我们将考查你的业务水平、机器学习能力、编码能力和价值观。
问题六:你是否曾经参与DoorDash的招聘过程?
是的,我也出过很多面试任务,打过很多电话。从面试任务的评估来看,市场上大多数数据科学家最大的陷阱或最大的弱点是不能将机器学习模型与业务影响联系起来。很多非常非常聪明的人构建了这个非常复杂的五层神经网络,做出了非常好的预测,得分非常高。但是,我们深入研究某些模型的业务影响时,他们通常会遇到一些难题。最终,我们需要机器学习来对业务产生利益。这是非常重要的。
问题七:那么,如果这些问题与业务影响相关,应聘者该如何准备这些问题呢?
我认为第一步应该只考虑商业方面的问题。问问自己:“我建立的这个模型对企业有什么实际影响呢?”这会帮助你思考,“企业可能需要某些衡量经营健康状况的指标。”这可以是收入、盈利能力、成本等。如果不太熟悉这些业务术语,我建议你了解一下公司关键业务的衡量指标。
无论你面试的是什么职位,都要更深入。假设你在面试市场分析,在脑海中应该问自己这些问题,“什么是市场分析师?在一个营销人员的日常工作中,他们关心的是什么?市场营销最关注的是获得更多的用户,留住用户,用更少的广告成本获得更多的用户。”
所以你会说,“好吧,我知道他们关注的点了。如果我建立的这个模型实际上会如何影响这些关注点呢?”如果很难想通,那么这可能预示着需要更多地研究该如何增加价值,或者对于业务的某些方面来说,是否存在价值。
最后,我通常会提醒数据科学家对那些在业务部的人要有同理心,确保从他们的角度理解事情,因为他们不知道什么是集成、参数调整或95%的AUC。因此,试图从他们的角度来理解事物,以便能够将模型转换为他们关注的东西,这是非常有用的。
问题八:作为一名数据科学家,你在DoorDash有什么成功的秘诀吗?
我使用了三种主要的策略,这三种策略针对通用数据科学招聘的不同部分。1)我给招聘人员和招聘经理发了电子邮件。2)我使用了Ramit Sethi的公事包技术。3)我使用了自己创建的数据分析来优化求职申请的时间安排。
Jeff为成功求职创建了三个文件。
文件一:会话分析表
会话分析表示例: https://docs.google.com/spreadsheets/d/1TmveoOBwRWO7lsQ7z78wkGK4oMOUHWwC_uRaKFeBI84/edit?usp=sharing
问题九:此文件的重要之处在哪?
我求职时,面临的最大挑战之一是如何最好地利用时间(面试、申请、练习代码、回答问题等)?我也不知道如何最好地利用时间。所以我使用分析/数据科学来解决这个问题,以便在这个领域找到一份工作。因为我已经经历了很多次求职过程,所以我有足够的数据来制定计划,并且能够有所领悟。
这张电子表格是我整理出来的,用来总结我的求职面试经历。上半部分列出了面试过程的各个部分。最后一部分列出了获得更多面试的渠道。
问题十:在求职过程中利用此分析电子表格有什么好处?
像许多数据科学问题一样,这也是一个优化问题;利用有限的资源,使收益最大化。如果你对这个话题感兴趣,我建议研究一下线性规划。我没有使用任何机器学习模型,因为数据点非常小。只有掌握足够多的数据才能获得这样的洞察力。
但我认为这对充分利用时间很有益。在数据科学中,你可以学习统计学、机器学习、编码,你可以花时间做任务,但问题是:该怎么知道哪一个对自己最有价值?这个电子表格能够解决这个问题。
比方说,我有三个小时准备面试或者求职。我怎样才能有效地分配时间,让获得工作机会的可能性最大?电子表格可以解决这个问题。
文件二:给招聘人员的邮件
招聘人员邮件示例: https://docs.google.com/document/d/16RXFT71tZJ3BUFPuDTnEke4yNsm9fiRZQlHztVDkToA/edit
问题十一:此邮件有什么战略意义?
此邮件利用了一些人类的心理和写作技巧,以吸引收信人。
第1段:首先要真正尊重他人的时间,并提及这一点(对我而言,我也会收到很多信息和电子邮件要求我做些什么)。然后确定信息来源的途径,以及发邮件的目的。
第2段:展示你的任职资格;为什么你很适合这个职位。突出你各种各样的技能的不同部分,让自己与众不同。
第3段:展示你在生活中的习惯爱好等。这样,收信人就可以知道你既有技术技能,又有沟通技巧,并努力成为一个更好的人。每个人都有不同的特点。要想要使用此模板的话,好好思考自己的与众不同之处。
第4段:使用优先位置。使用优先位置可以让收信人更快地回复你的邮件,也可以体现你对他们的重视。要从他们的角度想事情。
文件三:公事包文件
公事包文件示例: https://docs.google.com/document/d/1HTmC-hu9upge8vnNDe65OnrX0a7hRoIcNX2YkkJYfzc/edit
问题十二:公事包文件是什么?应聘者如何使用它?
如果你在面试过程比较顺利,沟通顺畅,你在面试结束时说,“请稍等,我之前花了些时间考虑你提出一些问题。我为你准备了一些东西”。然后你就非常戏剧性化地打开公事包,向招聘经理展示你已经了解他们的难题是什么,并且已经做出了详细的解决方案。
这样一定会牢牢抓住招聘经理的心,因为他们在想:“如果我雇佣这个应聘者,他就会想到那些问题,然后解决掉这些问题。”
因此,公事包技术是一个文档,可以概述公司的难题,以及你为解决这些难题而提出的想法和项目。这些项目非常详细,例如所需的资源、所需的时间以及项目大纲。所以在细节层面上,实现这些想法轻而易举。
每当我在面试中展示这份文件时,我都能应聘成功。
问题十三:请介绍一下你为TowardsDataScience.com所写的TinderBot文章
M2M第90天—我如何利用人工智能来使Tinder自动化:https://towardsdatascience.com/m2m-day-89-how-i-used-artificial-intelligence-to-automate-tinder-ced91b947e53?source=post_page-----68d85b345f21----------------------
我想了解卷积神经网络和深度学习的工作原理。我学习的方法是自己的技能去发现要解决的问题。
当时,我觉得交友应用浪费了太多时间。我认为应该建立一个卷积神经网络来对感兴趣的和不感兴趣的个人资料进行分类。通过这个过程,我了解了神经网络是如何工作的,不同的深度神经网络之间有什么区别,以及其他的难点,比如调优。
问题十四:这篇文章对于应聘过程有什么影响?
它并没有带来直接影响。当我在邮件里向招聘人员推销的时候,它给了我一个很好的卖点。对于非技术招聘经理和招聘人员来说,理解我的工作以及我构建项目的思维过程是非常重要的。
问题十五:就整个招聘过程,你对于TDS的观众有什么建议?
我在玩牌时,有时即使是正确的做法,也会赔钱。这个观点适用于生活中的每一件事。在我们的日常生活中总是有一些机会。有时候,我们可能会做正确的事情,但没有好的结果。应聘也是这样。在招聘过程中,有太多的变数,随机的事件太多,这类事情很难控制。
因此,我想说的是,在招聘的时候,只要把注意力集中在你能控制的事情上,集中在正确的行动上。他们可能每天发送3封拒绝邮件,总是在感谢您的参与。像制作公事包这样的事情都是你能控制的。但要记住,有时会有很多随机的运气,事情可能不会按你想的方式发展。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)
转载:https://blog.csdn.net/duxinshuxiaobian/article/details/101436552