2017 年,谷歌的八位机器学习研究人员共同发表了一篇具有突破性意义的研究论文,题为《注意力就是你所需要的一切》(Attention Is All You Need)。这篇论文引入了 Transformer AI 架构,该架构如今已成为支撑几乎所有主流生成式人工智能模型的核心基础。
Transformer 架构通过使用神经网络,将被称为“Token”的输入数据块编译或转换为所需的另一种输出形式,从而成为推动现代人工智能繁荣发展的关键要素之一。Transformer 架构的多种变体被广泛应用于各种模型,包括 GPT-4(以及 ChatGPT)等语言模型、运行谷歌 NotebookLM 和 OpenAI 高级语音模式的音频生成模型、Sora 等视频生成模型,以及 Midjourney 等图像生成模型。
在今年 10 月的 TED AI 大会上,被称为“谷歌八子”之一的雅各布・乌斯克尔特(Jakob Uszkoreit)接受了媒体的采访。在访谈中,他分享了 Transformer 的发展历程、谷歌在大语言模型领域的早期探索,以及他目前在生物计算领域的新冒险。
乌斯克尔特在采访中透露,尽管他和谷歌的团队对 Transformer 技术的潜力寄予厚望,但他们并未完全预见到它在 ChatGPT 等产品中能够发挥如此关键性的重要作用。
以下为专访全文:
问:你对《注意力就是你所需要的一切》这篇论文的主要贡献是什么?
乌斯克尔特:论文的脚注中有详细的阐述,但我的核心贡献在于提出了一个观点,即有可能利用注意机制,特别是自我注意,来取代当时序列转导模型中占据主导地位的递归机制(来自递归神经网络的递归机制)。这种替代方案能够提升效率,因此也更具成效。
问:你知道你们团队发表那篇论文后会发生什么吗?你是否预见到它将会创造出怎样的产业?
乌斯克尔特:首先,我想强调的是,我们的工作并非孤立存在,而是站在了众多前人研究的基础上。这篇论文并非孤立的事件,而是我们团队以及其他众多研究者多年努力的结晶。因此,如果将后续的发展完全归功于这篇论文,可能是一种人类倾向于讲故事的视角,但这并不完全准确。
在那篇论文发表之前,我在谷歌的团队已经对注意力模型进行了多年的研究。这是一条漫长且充满挑战的道路,涉及大量的研究工作,不仅限于我的团队,还有许多其他研究者也在这一领域耕耘。我们对注意力模型寄予厚望,认为它能够从技术层面推动整个领域的发展。但是,当我们谈到它能否真正促进像 ChatGPT 这样的产品诞生时,至少从表面上看,我们并没有完全预见到这一点。我的意思是,即使在我们发表论文时,大语言模型及其展现出的能力已经让我们感到震惊。
我们没有将这些技术直接转化为市场产品,部分原因可能是当时对于开发大规模(潜在投资达 100 亿美元)的产品持保守态度。尽管我们看到了这些技术的潜力,但我们并不完全相信仅凭这些技术本身就能让一款产品具备足够的吸引力。至于我们是否对这项技术寄予厚望,答案是肯定的。
问:既然你们了解谷歌在研发大语言模型方面的工作,那么当 ChatGPT 在公众面前取得巨大成功时,你们团队有何感想?是否会有“唉,他们做到了,而我们没抓住机会”的遗憾?
乌斯克尔特:确实,当时我们有一种“这是完全有可能发生的”的感觉。但这种感觉并非“哦,真可惜,他们抢先了”之类的情绪。我更倾向于说“哇,这本来可以更早些实现的”。至于人们迅速接纳并应用这些新技术的速度,我确实感到惊讶,那真是令人赞叹不已。
问:那时候你已经离开谷歌了,是吗?
乌斯克尔特:是的,我已经离职了。从某种程度上讲,你可以说,谷歌并非进行这类创新工作的理想场所,这是我决定离开的原因之一。我离开谷歌并非因为我不喜爱那里,而是因为我认为我必须在其他地方去实现我的愿景,那就是创办 Inceptive 公司。
然而,我真正的动机并不仅仅是看到一个巨大的商业机会,而是一种道德上的责任感,去做一些在外部环境中能够做得更好的事情,比如设计更有效的药物,从而对人们的生活产生直接而积极的影响。
问:ChatGPT 的有趣之处在于,我之前使用过 GPT-3。因此,当 ChatGPT 出现时,对于熟悉这项技术的人来说,它并不算是一个巨大的惊喜。
乌斯克尔特:是的,你说得对。如果你之前使用过这类技术,你可以清晰地看到它的演进过程,并做出合理的推断。当 OpenAI 与亚历克・雷福德(Alec Radford)等人一起开发最早的 GPT 模型时,我们就已经讨论过这些可能性,尽管我们当时并不在同一家公司。我确信,当时我们都能感受到那种兴奋,但对于 ChatGPT 产品会受到如此广泛且迅速的欢迎,这仍然是没有人真正预料到的事情。
问:我当时的感觉就像是,“哦,这不过是 GPT-3 加上了一个聊天机器人的功能,能在对话循环中保持上下文。”我并没有觉得这是一个突破性的时刻,尽管它确实很吸引人。
乌斯克尔特:突破性时刻可以有不同的形式。这确实不是一个技术层面的突破,但在这种能力水平下,这项技术展现出了极高的实用性,这无疑也可以称之为突破。
同时,我们也需要意识到,用户在使用我们创建的工具时,他们的创造性和使用方式的多样性往往出乎我们的预料。我们可能无法预见到他们会有多么善于利用这些工具,以及这些应用场景会有多么广泛。
很多时候,我们只能通过实践来学习。这也是为什么保持实验态度和接受失败的意愿如此重要的原因。因为大多数情况下,尝试都会失败。但在某些情况下,它会成功,而且极少数情况下,它会像 ChatGPT 那样取得巨大的成功。
问:这意味着需要承担一定的风险。谷歌是不是缺乏承担这样的风险的意愿?
乌斯克尔特:当时确实是这样的。但如果你深入思考,回顾历史,你会发现这其实是非常有趣的。以谷歌翻译为例,它的经历其实与 ChatGPT 有些相似。当我们首次推出谷歌翻译的第一个版本时,它充其量只是一个在聚会上玩的玩笑。但在很短的时间内,我们就把它变成了一个真正有用的工具。在那个过程中,它有时输出的内容简直糟糕透顶,让人尴尬不已。然而,谷歌还是坚持了下来,因为这是一个值得尝试的正确方向。但那是发生在 2008 年、2009 年、2010 年左右的事情了。
问:你还记得 AltaVista 搜索引擎推出的在线翻译工具“巴别鱼”(Babel Fish)吗?
乌斯克尔特:当然。
问:当它首次亮相时,我和我哥哥经常被它吸引,我们会把文本在不同语言之间来回翻译,因为这样做会让文本变得混乱而有趣。
乌斯克尔特:是的,那种翻译结果往往会越来越离谱,越来越让人啼笑皆非。
(注:在离开谷歌后,乌斯克尔特与他人共同创立了 Inceptive 公司,致力于将深度学习技术引入生物化学领域。该公司正在研发乌斯克尔特所谓的“生物软件”,这是一种利用人工智能编译器将特定行为转化为 RNA 序列的方法。当这些 RNA 序列被引入生物系统时,它们能够执行预设的功能。)
问:你最近的工作重心是什么?
乌斯克尔特:2021 年时,我与人共同创立了 Inceptive。我们的目标是利用深度学习和高通量生物化学实验来设计真正可编程的、更高效的药物。我们坚信,这只是我们“生物软件”的第一步。
生物软件在某种程度上与计算机软件相似。你首先设定一些行为规范,然后利用一个编译器将这些规范转化为计算机软件,并在计算机上运行,以展示你所指定的功能。同样地,在生物软件中,你定义一个生物程序的片段,然后利用一个编译器进行编译。但这里的关键是,我们并不是使用传统的工程编译器,因为生命体系的复杂性远非计算机所能比拟。然而,通过引入具有学习能力的人工智能编译器,我们能够将这些生物程序片段编译或转换成分子。当这些分子被插入生物系统或有机体中时,我们的细胞就会按照预设的功能进行运作。
问:这与 mRNA COVID 疫苗的工作原理是否相似?
乌斯克尔特:mRNA COVID 疫苗可以被视为一个极为简单的实例。在这个例子中,程序指示细胞“制造这种经过修饰的病毒抗原”,随后细胞就会按照指示生产相应的蛋白质。然而,你可以想象,分子所能展现的行为远比这更加复杂。为了直观理解这些行为的复杂性,你只需考虑 RNA 病毒即可。它们仅仅是 RNA 分子,但当它们侵入生物体时,却能够展现出令人难以置信的复杂行为。例如,它们能够在生物体内广泛分布,甚至在全球范围内传播,还能在特定的时间段仅在生物体的少数细胞中执行特定任务等等。因此,你可以设想,如果我们能够设计出具备这些功能的微小分子,将会带来怎样的变革。当然,我们的目标绝非制造让人生病的分子,而是创造对人类健康有益的分子,这将彻底改变医学的面貌。
问:你如何确保不会意外地创造出具有破坏性的 RNA 序列?
乌斯克尔特:在很长一段时间里,医学在某种程度上一直游离于科学之外。它并未被真正透彻地理解,而我们至今仍未完全掌握其实际的作用机制。
因此,人类不得不开发出各种保障措施和临床试验流程。这些基于经验的保障措施,在患者踏入诊所之前就已经存在,它们能够阻止我们因疏忽而制造出危险物质。自现代医学诞生以来,这些系统便一直伴随着我们。因此,我们将继续沿用这些系统,并竭尽全力确保安全。我们将从最小的系统开始实验,在未来的实验中采用单个细胞,并严格遵循医学界的既定协议,以确保这些分子的安全性。