淘先锋技术网

首页 1 2 3 4 5 6 7

文科生如何成为AI科学家?

可以参考这个案例。谷歌大脑科学家 Sara Hooker 的经历最近被《经济学人》当做典型报道了——但这件事却让她感到非常担忧。这位女科学家有着传奇的经历:出生在非洲,本科在卡尔顿学院学习经济学,没有博士学位,却成为了谷歌大脑的一名研究科学家。

她曾在 fast.ai 上接受过 12 周机器学习兼职课程,这成为了经济学人介绍的重点。不过,Hooker 本人在文章发出之后自己撰文表示:我的成功无法复制。

Jeff Dean 转发了 Hooker 的博客,并表示:「现在我很自豪能够与她共事。」

在最新一期的《经济学人》上,有一篇题为《New schemes teach the masses to learn AI》的文章。该文讲述了 fast.ai 对我所获成功的影响。fast.ai 是旧金山湾区一个非营利性组织,旨在揭露深度学习之谜,让大家能够使用这项技术。我在文中被作为一个成功的案例提及——「fast.ai 的首届毕业生 Sara Hooker 在完成课程后被谷歌录用,加入了竞争激烈的 AI 实习项目(AI Residency Program),她之前从未从事过深度学习。」

该文内容引起了我的极度不适,一方面,我无法否认对 fast.ai 的认可,Rachel 和 Jeremy 都是我钦佩的人,是他们为世界各地成千上万的学生提供了进入这个领域的渠道,这种做法在同行中尚属首次。然而,我又做不到忽视该文引起的不适感,因为它这种简化的叙述会误导其他想要进入这一领域的人。

我的确参加了 fast.ai 的第一期课程,也的确在后来加入了谷歌大脑的 AI 实习项目。但是,将我的成功完全归因于 12 周的晚间课程(part 1 和 part 2)不仅有些牵强,还会给那些想要自学机器学习的人留下一种灰姑娘快速华丽转身的错误印象。而且这种表述将我自身的努力和成长弱化了。

我一度非常清楚自己喜欢做什么。本科期间,我既没有接触过机器学习,也没有接触过计算机科学。在成长过程中,我曾待过非洲、莫桑比克、莱索托、斯威士兰和南非。我的家人现在定居于利比里亚的蒙罗维亚。

我的第一次美国之旅是去明尼苏达州,在那里我拿着奖学金上了一所名为 Carleton College 的小型文科学校。我去参加国际学生定向活动之前,从未见过校园。来自非洲的我甚至不知道明尼苏达州的冬天有多冷。虽然天气很恶劣,但我仍享受了四年学习文科课程和主修经济学的美好校园时光。我曾经的梦想是成为世界银行的经济学家。这与我童年时期接触到的大多数技术人员都是来自国际货币基金组织和世界粮食计划署等组织的经济学家不无关系。

我决定毕业几年后再申请经济学博士学位,因为我当时想和旧金山湾区的经济学博士一起研究反垄断问题。我们将经济建模和统计应用于现实世界的案例和数据集,以评估是否存在价格操纵或公司是否滥用权力欺骗消费者。

2014 年初,Delta Analytics 首次对旧金山湾区的非盈利机构进行展示。

搬到旧金山几个月之后,我和其他几个经济学者(Jonathan Wang、Cecilia Cheng、Asim Manizada、Tom Shannahan 以及 Eytan Schindelhaim)开始在周末会面,充当非营利机构的志愿者。我们并不清楚自己所做的事有何意义,但我们觉得将自己的数据技巧免费提供给非营利机构可能是一种有用的回报方式。我们给旧金山湾区的一些非盈利机构发了邮件,得到的回应之多出乎意料。

我们发现,许多机构有自己的数据,但却不知道如何利用这些数据加速自己的发展。那一年,我们以 Delta Analytics 的名称注册了一家非盈利机构,许多工程师、数据分析员及研究人员加入我们成为志愿者。Delta 仍然完全依靠志愿者运营,没有一名全职员工,大家都免费为非盈利机构提供服务。截止到我申请加入谷歌大脑实习项目时,我们已经完成了 30 余家非盈利机构的项目。

Delta Analytics 第二批志愿者团队(2016)。

Delta 是我人生中的一个转折点,因为合作机构提供的数据通常是杂乱、非结构化的。而我们需要用到的线性模型(比如同方差、无自相关,正态分布)他们却很少提供。我亲历了经济学家最喜欢的工具——线性函数的失败。我决定去了解更多复杂的建模形式。

我加入了一家名为 Udemy 的初创公司,担任数据分析员。这家公司有 150 人,致力于帮助任何人学习任何东西。我的老板将颇具挑战性且影响广泛的项目交给我,有利于提高我技术方面的能力。我入职第一年做的重要项目之一是收集数据,开发、部署 Udemy 的首个垃圾邮件检测算法。

做垃圾邮件检测的项目让我立志在技术工程师的道路上继续成长。我想快速迭代,对手里的模型进行端到端的控制,包括将其部署到生产中。这项工作需要精通编程。在职业生涯早期,我已经学过了 STATA(一个类似 MATLAB 的统计程序)、R 和 SQL。如今,我想玩转 Python。我在 Hackbright 上夜晚补习班,多数时候都是早上 4 点起床,赶在上班之前练习编程。直到现在我还保留着这个习惯,只不过我现在是利用这段时间读与我的研究领域没有直接关联的论文,为我想学的其它领域腾出时间。

半年之后,尽管我的编程能力得到提高,但去应聘工程师还不够熟练。那时候,Udemy 数据科学团队与我的 Analytics 团队是分离的。Udemy 在我身上投资。他们批准我转到工程岗位,成为首个非博士数据科学家。我从推荐算法入手,学习如何在数百万人中大规模部署模型。向工程领域的转变加速了我的技术成长,允许我继续自己的工程师进阶之路。

Udemy 数据团队

在 Udemy 成长的同时,我仍在参与 Delta 项目。其中有两个项目我非常喜欢,首先是(与 Steven Troxler, Kago Kagichiri, Moses Mutuku 一起)在肯尼亚内罗毕与 Eneza Education 公司合作的项目。这是一家科技教育公司,使用非智能手机让 400 多万中小学生通过手机短信参加练习测验。

Eneza 的数据提供了关于肯尼亚手机使用情况以及社区学习实践的精彩见解。我们的工作是找出阻碍学生参与活动的困难测验,并改进针对个人需求与能力的定制方法。第二个是(与 Sean McPherson, Stepan Zapf, Steven Troxler, Cassandra Jacobs, Christopher Kaushaar 一起)和 Rainforest Connection 合作的项目。

这个项目旨在利用来自雨林的流音频(streamed audio)识别非法砍伐森林的行为。我们做出将音频转换成光谱图的设施,并使用卷积神经网络进行分类。我们还研究了一些模型以便更好地对回收手机测验到的声音进行三角测量。

2017 年初,我决定开设一个课程来介绍机器学习的基本原理。我的动机是希望将 Delta 从一个弥补技能差距的非营利性组织转变为一个在世界各地建立技术力量的组织。通过增强当地社区利用其数据的能力,我们鼓励更加可持续发展的长期干预。我离开了 Udemy,开始全心和 Delta 的一群志愿者(Hannah Song, Amanda Su, Jack Pfeiffer, Rosina Norton, Emily Rourke, Kevin Pan, Melissa Fabros)开发包含理论和编码模块课程。

我和 Hannah Song 一起搬到了肯尼亚内罗毕,开始试点授课。我们通过调用 Kiva API 来提取过去 10 年在肯尼亚发放的所有贷款,然后构建了一个本地数据集。Melissa Fabros, Lina Huang and Sydney Wong 目前在摩洛哥的加迪尔教授这个课程,教学团队也随之成长,成员包括 Brian Spiering, Mario Carrillo, Thuongvu Ho and Parikshit Sharm。

在肯尼亚内罗毕举办的 Delta Analytics 试点课程。

总之,上述就是我在参加 fast.ai 课程之前的四年奋斗过程。我不知道能够加入 Google AI residency 计划的原因,但我认为这不仅仅是因为我上过 fast.ai 课程。

这不是说 Rachel 和 Jeremy 做的事没有价值,fast.ai 非常特别:它是可获取、赋能和民主化的一部分。我与 fast.ai 的愿景及其社区有很深的联结。此外,Rachel 和 Jeremy 在我职业生涯每一个拐点都帮助了我。

然而,我担心的是,《经济学人》中的故事不仅取代了我自己的叙述,而且对在这个领域开始工作的所有都设定了不切实际的期望。这篇文章没有突显这条路有多难,如果短期内没有达到目标,学生们可能会质疑自己。

这里有一个令人难以接受的真相,即单凭努力几乎无法取得成就。在这条路上有很多人相信我,将我推出舒适区,给我影响广泛、举足轻重、能让我大展拳脚的项目。我从旧金山的经历中受益良多,那里汇集了许多技术达人,让我可以获得指导、沉浸在有趣的技术中。此外还有运气的因素。谷歌大脑实习项目几年前并不存在。我是该项目历程中的第二批成员。项目的初衷和 fast.ai 的动机一样具有革命性;该项目旨在为来自多领域的人开辟研究领域。从其他顶级研究实验室(Uber、Facebook、Microsoft、OpenAI)宣布的项目数量来看,该项目的成功是显而易见的。

我们的领域需要更高的多样性。必须有更多像我这样的人受到欢迎,同时也能接触到获得成功的工具。不过,人们做好成功准备的一部分在于理解它具有多大挑战性,在进发的道路上会遇到多少失败。《经济学人》认为,在为期 12 周的兼职课程结束之后万事大吉,这是具有误导性的。

谷歌大脑并不是职业的终点:我热爱这个工作,也非常喜欢自己的同事们,但我仍然需要谨慎地强调这一点。在这个世界上仍然有很多人正在解决重要的问题——但却不是在谷歌工作的。如果你正在考虑开始自己的自学之旅,就必须事先问自己一个问题:如果你不加入谷歌,是否还对机器学习充满热情?如果你的答案并不确定,请谨慎行事。

最后,研究永无止境。我在一个自己喜欢的领域里工作,同事们不断激励着我。谷歌大脑让我有机会进行深度神经网络可解释性和模型压缩的重要研究。我也有机会参与加纳阿克拉 Moustapha Cisse 领导的谷歌大脑实验室的一部分。

有意思的是,当你知道的越多,你就越发感觉自己无知。我对很多子领域的接触依然有限。我仍在不断地问问题,在对于概念不明确的时候及时跟进。我不会装作理解自己不懂的东西。不过,我不同寻常的背景为自己带来了一些优势:我有着同事们不常有的见解,而我涉足不同领域的经历也让自己经常找到一些新颖的解决方法。

与谷歌 AI 成员 Jonas Kemp 和 Kathryn Rough 共同庆祝入职一周年。

从 2017 年起,我开始教授机器学习基础知识,我的动机与 Rachel 和 Jeremy 相同。我们并不是孤军奋战,有像 Deep Learning Indaba、AIMS 硕士项目、Data Science Africa、深度学习暑期学校以及 Distill.pub 等旨在面向入门者的课程。我希望通过课程让所有对机器学习感兴趣的人理解这个领域的基本概念。对于一些人来说,机器学习或许会成为一时的兴趣;对于另一些人来说,这可能是他们成为研究者、工程师、数据科学家、分析师的起点。两种结果都非常有意义。机器学习社区需要百家争鸣,以深入讨论技术对于社会的影响。

我们更需要鼓励那些希望对于新方法和应用有所贡献的人。毫无疑问,我们的旅途还在进行中,尽管缓慢,但一直是充实的。