个人AGI的理想界面是现在使用的界面?OpenAI总裁:界面将会消失,算力永远不够!我们正处在智能体时代的边缘

要知道,OpenAI 和微软之间原本是深度绑定的战略合作关系,微软直到2032年都能访问 OpenAI 的IP。但随着前段时间的松绑,同一技术栈上的上下游,在产品层面重叠竞争。

“现在和微软产生竞争关系,会觉得怪怪的吗?”

主持人 Alex Kantrowitz 在这场会议上直接对 OpenAI 联合创始人兼总裁Greg Brockman 提出了这个问题。

要知道,OpenAI 和微软之间原本是深度绑定的战略合作关系,微软直到2032年都能访问 OpenAI 的IP。但随着前段时间的松绑,同一技术栈上的上下游,在产品层面重叠竞争。

Greg Brockman 认为眼下正在发生的最重要的事情,是 AI 在经济体中的应用,它正在真正颠覆整个经济并造福每一个人。

除了微软之外,主持人还问到 OpenAI 与“苹果Siri”之间可能存在的竞争。

ChatGPT 不仅建议你下一步想做什么,而且直接替你去做将会成为现实。这样一来,实际上让你们变成了一个操作系统,你不觉得吗?

在 Greg Brockman 看来,他们拥有的是某种从根本上全新的东西,但竞争一定是存在的。并判断我们正处于全新“智能体时代”的开端。在 AI 领域,事情的发展规律向来如此:每当你的能力水平跨上一个新台阶,就意味着你获得了一个重新思考一切的机会,重新思考人们如何进行交互,重新思考技术的极限在哪里。

在与 Siri 之间的竞争中,一个非常重要的问题是“应用界面”该如何变化。

还讲到了算力问题,Greg Brockman 始终认为:我们正在走向一个根本不会有足够的算力来满足所有的需求的世界,一个由算力驱动的经济体,每个人都会无时无刻不在使用这些模型来完成他们感兴趣的任务。

至于面临算力上疯狂投资的成本以及价格战中的降价,主持人问到“如果满足这种不断增长的需求需要耗费如此庞大的资源,而在一个可能会降价的环境中,如何让这笔账算得通?”

而在 Greg Brockman 看来,这是作为一家公司正在经历的转变。对他来说,在这场大博弈的早期阶段,整个市场绝对规模的扩张速度之快、他们收入水平的飙升速度之快,现在还没有人能预料到这条曲线未来会走得有多陡峭。

当然,还有更多硬核的观点和内容!

全文就在下面!

界面即将消失,语言模型到AGI之间有巨大鸿沟

主持人:Greg,之前大家有一种讨论,认为用“超级应用”来形容你们当时做的事情可能不太准确,也就是把作为编程端的 Codex 和 ChatGPT 结合起来。当时人们会觉得,“不对,真正的超级应用应该是让你能在里面使用其他所有应用的东西。”但现在随着这些产品的融合,我们从外部视角来看,其实“超级应用”可能反而是个准确的词。因为我们开始发现,现在当你需要做任何事情时,往往都是从 ChatGPT 的一句话提示词开始,然后 OpenAI 的技术就会利用你的浏览器或电脑去帮你把事情办成。这样理解对吗?

Greg:我觉得这是一个相当不错的视角。如果真正放大来看,我们实际上努力在构建的是 AGI。如果你想想自 ChatGPT 问世以来大家一直在使用的就是一个语言模型,这两者之间有着巨大的鸿沟。现在的体验确实很神奇,你可以跟它对话,它也会回应你。

但我们在 2022 年刚推出它时,它还没有记忆功能,没有连接任何工具,也没有上下文概念。所以,这种对话式的智能其实只是人们完成工作、实现目标真正所需能力的其中一部分。我们未来的方向是让 AI 真正成为你的贴身管家,你提供目标和方向,它会不停地思考“我今天能为 Alex 做点什么?”它不仅能去解决超级复杂的难题,也能处理非常琐碎的日常事务。比如你醒来时,发现收件箱已经帮你整理好了;或者如果你在考虑某个健康计划,它可以帮你出谋划策、查明医疗方案,或者至少能通过反复沟通为你提供这类信息。

我们花了很多时间在思考“你到底想要什么样的界面?想要什么样的产品?”而答案是,你几乎不想要任何界面,也不想要任何产品。就像你我之间的界面是什么?仅仅是能够与某个形式的、持久存在的实体进行对话,而它能够去帮你达成目标。构建这样的系统非常困难,需要时间。但我们已经拥有了很多核心拼图,我们正在加速整合产品层,努力让模型变得更好、让整个系统更加丝滑,从而减少点击按钮、切换开关、变换模式等操作。这并不是说在发展过程中完全不会有这些操作,但长期的趋势一定是走向简化和统一。

Greg:我们的目标是把 Codex 的能力带给每一个人,把智能体带给每一个人

主持人:你说“界面将会消失”这一点非常有趣。我们很多现在使用 ChatGPT 这类产品的人都会注意到,机器人最后往往会给出一个建议。未来在 ChatGPT 内部将会发生的是:比如你和它聊到你的健康决定,它可能会说“你可能需要去看这位专家,让我帮你预约一下吧”,然后它就会真正代表你去执行这个操作。也就是说,它从单纯的对话界面,进化到能够真正理解你的意图,并走出去为你完成这件事。

Greg:没错,完全正确。如果你用过 Codex,我们的目标是真正把 Codex 的能力带给每一个人,把智能体带给每一个人。这项技术其实现在已经存在了,比如我就把我的 Codex 接到了 Slack、Gmail 和我的日历上。在 OpenAI 内部,有很多非技术用户也在这么用。虽然它名字里带个“Code”,但它其实跟写代码没太大关系,它本质上是一个可以通过智能体来驾驭的通用工具。举个例子,我们公关团队的一位同事之前在筹备一场活动,她只是让 AI 去询问所有活动参与者的饮食偏好,接着 AI 就排出了完整的座位表,把所有这些繁重的工作全干了。这样她就能把精力集中在自己真正想做的事情上,专注于构思她想要达成的活动愿景。我认为这种改变将在各个领域全面铺开。所以,想象一个连接了这些工具的 AI 已经不再是科幻小说了。

模型的进步速度太快了!我们正处于智能体时代的边缘,一切将被彻底颠覆

Greg:我还记得在 2023 年(大概是 3 月或 4 月),我们在 ChatGPT 中进行了第一次工具使用的尝试,推出了插件功能。大家还记得 ChatGPT 早期的插件吗?那时候根本行不通,完全失败了,因为当时的模型还没准备好。虽然产品的形态是对的,但当时我们一次只能给模型开放三个不同的接口,再多它就开始遗忘了。因为当时我们可能只有 2K、最多 4K tokens 的上下文长度,几乎没有记忆力。这很像 20 世纪 60 或 70 年代早期的计算机,只有小得可怜的内存库;而今天你手里的手机,性能已经超越了那个时代的任何超级计算机。

我觉得这些模型的发展也是这个轨迹,因为它们的进步速度太陡峭、太快了。现在你可以让模型同时访问成百上千种不同的工具,我们有能力将它们连接到整个文件系统。所以它几乎把整个互联网的力量以及你想要的任何应用都放在了指尖。而且它很聪明,它拥有高达 52M tokens 的上下文长度(这取决于你怎么看)。它的能力水平也变得如此强大,这些模型现在正在解决未解的数学和物理难题,真正帮助人们做到他们靠自己无法完成的事情。我们正处在智能体时代的边缘,它们将彻底颠覆我们所有人的工作方式,无论是在软件工程、金融、法律、销售领域,还是在我们的个人生活中。

智能体时代的核心产品壁垒是“信任”

主持人:帮我们梳理一下你刚才举的那个例子,你的同事在 ChatGPT 里聊到活动安排,AI 建议说“嘿,我们应该怎么就某事联系活动参与者呢?”基本上,一旦这位同事说“好主意”并表示同意,界面就会从那一刻起接管接下来的工作,自动切入你正在使用的任何工具,然后替你把事情办好。

Greg:没错。所以它会利用它的 Gmail 接口,在你的收件箱里搜寻所有参加活动的人,然后看看大家有什么饮食限制。它会发现:“哦,这些人的饮食限制我已经有了,但这几个人的我还没有。”接着它会撰写一封邮件。根据你具体的设置,它可能会说:“嘿,我写好了这些邮件,我可以发送吗?”如果你设置的接口甚至不允许它直接发邮件,它就会说:“我写好了,你需要自己发一下。”而在另一种更进一步的情境中,你可以想象,如果你对这个系统已经建立了足够的信任,它会直接告诉你:“邮件写好了,我已经发出去了。”我认为这实际上指向了智能体时代一个非常重要的维度,那就是信任。我们真的需要学习如何与这些系统建立信任,了解它们在哪些方面擅长、哪些方面不擅长,从而弄清楚你想把什么任务委派给它们,以及你想赋予它们多大的责任。而我们认为这种信任是赢来的,不是我们直接赋予的。通过向操作者提供大量的工具、控制权、可追溯性和监督手段,我们认为这将是至关重要的一环,也是核心的产品功能和差异化优势。

ChatGPT 会被传统用户界面抵制吗?

主持人:回看早期的一些尝试,OpenAI 曾有一阵子让你能在 ChatGPT 内部叫一辆 Uber 。其实在它之前,已经有一长串的公司尝试过让你在聊天界面里执行操作,但从来没有真正流行起来。而这次的不同之处可能在于,聊天机器人可以直接控制你的浏览器或控制你的电脑。这样你就不必担心“这个插件能不能用”的问题了,它通过直接接管你的机器来替你完成任务。所以我在想,你是否预期会遭到来自现有用户界面的抵制?因为要实现真正的实用,ChatGPT 必须保持畅通无阻,才能代表用户出去执行这些操作。

Greg:首先我想说的是,这在目前已经不是理论探讨了。大家其实一直在使用 Codex,它最初真的只是专注于软件工程,但在 Codex 上发生的非软件类工作量最近绝对是在爆炸式增长。这是一条令人难以置信的指数级曲线,正如你所预料的那样。在 OpenAI 内部,Codex 的普及率和使用率目前基本上和 Slack 处于同一水平。OpenAI 就像是一家完全基于 Slack 运转的公司,我们大部分时间都不用邮件。说真的,如果你不用 Slack,你根本没法开展工作。而现在大家对 Codex 应用的感觉也是这样,每个人的 Codex 都连接了所有这些工具。

至于生态系统会如何演变,我认为这将是一个非常微妙的过程。因为非常重要的一点是,我们坚信应该有一个充满活力、蓬勃发展的生态系统,让人们能够真正参与构建并从中获益。

现在每个人都在思考,在 AI 时代,自己作为一家公司如何不仅生存下来,而且还能发展壮大?你如何真正利用“未来将会有多得多的活动”这一事实所带来的优势?如果你不融入 AI,如果你把它拒之门外,那么你实际上是在走下坡路,而不是在繁荣发展。

OpenAI 是想成为下一代 AI 操作系统?个人 AGI 的理想界面是我们现在正使用的界面

主持人:你们已经把 ChatGPT 引入了 Codex,这基本上意味着,如果我们是 ChatGPT 的用户,我们刚才探讨的这种体验,ChatGPT 不仅建议你下一步想做什么,而且直接替你去做将会成为现实。这样一来,实际上让你们变成了一个操作系统,你不觉得吗?但它不像 iOS 那种操作系统(你需要打开手机然后点击不同的应用),它更像是与所有应用的所有交互都将通过这个界面发生。这是你们的雄心吗?

Greg:我觉得你可以用这种方式来形容它,但我个人的思考方式有点不同。我是这样看待这件事的:一个通用人工智能或者我们所说的“个人 AGI”的理想界面是什么?我认为,它依然是你和我现在正在使用的这种界面。

你只是想和一个助手对话,对吧?你想和一个能够代表你去工作、去操作的实体对话。所以,那个智能体、那个 AGI、那个 AI 会拥有它自己的电脑,它自己可以访问各种东西。也许就像一个理想的同事一样,他们可以走过来在你的电脑上敲键盘。因此,它会对你自己的系统拥有一些经过你授权的访问权限。可能有时你把收件箱的访问权塞给它,可能它有它自己的收件箱,或者有某种能看到它所需物件的窗口,你把邮件转发给它。如果你仔细想想,这其实并不是没有先例的。这就像你和人类助理或者任何同事一起工作的方式一样。

AI 真正做到了让机器来贴近人类

Greg:我们实际上花了很多时间在思考,如何建立这些信任边界,并确保大家能够一起协作。所以我认为这完全是一件不同的东西。你可以把它看作是一个操作系统,但操作系统几乎是来自另一个时代的东西了,它是技术栈中不同层面的东西。这实际上更多的是关于你如何广泛地与技术进行交互。我认为 AI 最美妙的一点在于,它真正做到了让机器来贴近人类,而不是让我们去扭曲自己、去适应文件、文件夹以及所有这些在某种程度上并不自然的细节。那些细节更多的是关于机器如何运作,而不是我们如何运转。

我们正处于智能体时代的开端!竞争一定会发生

主持人:聊到个人智能,不知道你看 WWDC(苹果全球开发者大会)了吗?

Greg:没有,我错过了。

主持人:不管怎么说,看起来你和 Siri 之间将会形成某种竞争,对吧?因为 Siri 也将是一个坐在你所有应用之上的智能,让你能够采取行动。而 ChatGPT 将会是 iPhone 上的一个应用。那么,请谈一谈这种定位是否会给 OpenAI 带来困难,以及你们在战略上是如何思考这一点的?

Greg:我只是觉得,还是得用一种稍微不同的方式来思考这个问题。我认为我们正处于这个全新“智能体时代”的开端。在 AI 领域,事情的发展规律向来如此:每当你的能力水平跨上一个新台阶,就意味着你获得了一个重新思考一切的机会,重新思考人们如何进行交互,重新思考技术的极限在哪里。在我的脑海中,我能看到的未来图景是,比如用 AI 来解决科学难题。我觉得我们已经开始看到这方面的苗头了。就像今天我们宣布,在经同行评审的文献中,有医生正在使用 o3,那是我们最早期的推理模型之一。医生们用它为那些多年来求医无果、诊断不明的患者找到了答案。有一个例子是,某位患者被神秘疾病折磨了 20 年,最终通过这项技术确诊了。如果你意识到,“好吧,我们现在的模型已经能做到这种地步了”,那么接下来其实就是关于分发渠道、你能不能在一个应用里访问它之类的问题。但在我看来,这完全对不上号(不只是一个应用的问题),因为我们拥有的是某种从根本上全新的东西。这并不是说未来不会有竞争。恰恰相反,我认为竞争一定会发生,而且对每个人来说都是好事。我只是觉得,你使用这项技术的方式、它将具备的能力,以及它能让你做成的事情,都将与我们以前见过的任何东西完全不同。

OpenAI 正在打造多款设备!

但核心是如何让 AI 获得上下文

主持人:我原本正打算问你,“你们必须通过苹果才能触达用户”在某种程度上是成立的,那这是否意味着你们必须推出自己的硬件设备?

Greg:这当然已经被公开报道过了。

主持人:我去年 12 月去你办公室的时候,Sam Altman 就告诉我这件事正在推进,而且不止一款设备。所以,如果从我们与这些 AI 交互的角度来看,这款设备或这一系列设备将扮演怎样的角色?

Greg:我还是想退一步说,我认为这是一个非常崭新的事物的开端。我认为在交互方面发生的最大转变,甚至跟设备或诸如此类的东西无关。

真正的转变,是从“对话式智能”走向“智能体”,它们可以真正替你把事情办成。这是一个巨大的转变,而这种转变意味着你和它互动的方式必须发生改变。你基本上只会想要一个能掌握你所有上下文的单一智能体。在个人生活中是这样,在商业环境中也是这样。试想一下,比如你拥有一个在各个领域都拿到博士学位、甚至拿过好几次诺贝尔奖的同事,你雇了这一个、甚至雇了一百个这样的顶尖天才,但你却不让他们参加任何会议,那他们就很难发挥出什么作用。

所以,这里面的核心在于如何让 AI 获得上下文,而且不只是静态的,必须是动态的。随着你的业务流程演进、随着上下文的发展,你如何拥有一个能让 AI 访问的上下文层,从而让 AI 在其原始智能的基础上施展拳脚?因此,寻找方法让 AI 变得随手可用——比如让它参与到你的会议中,让它变得非常符合人体工程学、非常容易访问,我认为所有这些都需要彻底的重新思考。但对我而言,核心依然是从“智能体的形态”出发,然后倒推:你需要如何做才能让它获得所需的上下文?同时,信任依旧是让整个方程式运转起来的关键核心。

AI 设备不是 AI 本身,它只是联系你的一个界面

主持人:所以,这有点像随时随地带着这个设备,然后只要说“我想把那件事办了”,它就会替你去办。

Greg:我认为这会是其中的一部分。但我甚至觉得,即使你没有这样一个设备,也不意味着你就出局了。因为有一种版本的观点认为,设备本身就是 AI,你希望你的手机就是 AI,或者你希望你脑海中构思的某种定制设备就是 AI。但事实不会是那样的。它更像是一个界面。就像你的手机并不是你本人一样,对吧?它只是联系你的一个界面。这是我在需要你的时候能随时给你打电话、想问你问题时能找到你的一种方式。我们有不同的联系渠道,比如可以打实时电话、可以给你发短信、也可以发邮件。我认为我们与智能体的交互方式也会非常相似。

AI 的全部意义,在于成为一个可以极其流利、自然地去进行交互的对象

主持人:之前有一些报道称,OpenAI 正在研发这种“双向语音模型”,我想我们过去也聊过这个话题。目标是拥有一个你可以直接跟它对话、它能理解并以极度自然的方式回应你的 AI。关于这一点,你能透露点什么吗?

Greg:不能。不过说认真的,我的意思是,从这项技术的整体轮廓来看,我们其实在一年半、两年前就已经有了语音模型和非常酷的语音体验。我们最早是在 2024 年的 3 月或 4 月进行了公开演示,然后大概在当年晚些时候推向了市场。它运作的方式,本质上是将不同的模型串联在一起。最初的做法是,你先串联一个语音转文本模型,接着是一个文本转文本模型,最后再接一个文本转语音模型。把这三样东西硬塞在一起。而且在当时,即便你拥有了一个能够接收输入并输出回复的统一模型,你依然会面临“轮流发言”的问题。想象一下,就像我们现在这样,你和它说话时彼此不能重叠,你不能打断它。就好像你跟我说了一句话,然后你必须干等着我把整段话全部说完整,但人类聊天可不是这样的。所以,我们基本上是用了一个“黑客补丁”,通过这些辅助模型来判断“哦,看起来这一轮发言结束了”或者“哦,看起来新一轮发言开始了”。我们就纳闷,为什么我们非要聊“轮流发言”这件事呢?这种一问一答的轮流形式太不自然了。这又是人类在委曲求全,去适应机器及其局限性。所以,你显然最想实现的是一个运作方式更像你我聊天这样的 AI 模型,它在处理输出的同时,也能够实时处理输入。

当然,这一切正是这个领域里的许多人都在努力奔跑、试图追赶的方向。当你转向这种极其自然、极具人类流利感的对话界面时,真的会非常非常令人兴奋。以前没人见过这样的东西。我经常在想,现在大家和 ChatGPT 语音交互的体验在很多方面都很神奇,对吧?很多人在通勤时用它,能问各种各样的问题。但同时它也让人很抓狂,每当那种“魔法感”破灭的时候,比如你突然意识到你想补充一个追问,它却在电话那头不停地滔滔不绝,根本不讲理。所以我认为,我们需要或者说这种 AI 的全部意义,就在于成为一个你可以极其流利、自然地去进行交互的对象。

顺便说一句,我认为这不仅仅适用于个人生活场景,它真正大放异彩的其实是工作场景。我用 Codex 获得的一些最神奇的体验,恰恰是通过语音去操作它的时候。就像许多人一样,我们内置了语音功能,有些人则使用第三方应用。当你开始意识到,敲一条简短的消息来提供一些反馈很容易,但如果要写下整整一个段落、把你想要的所有东西都表达出来,那简直是噩梦,没人想这么做,对吧?你只想动动嘴皮子把话说出来,并且想要实时的反馈闭环,所有这一切都会发生,而且会非常惊艳。

大模型没有撞墙,进步还会持续下去

主持人:几年前有一种讨论,说大语言模型马上就要撞墙了,事实证明这种说法是错的。我一直在思考的一件事是:这些模型到底还能变得多好?这种提升什么时候才会停止?你有什么看法吗?

Greg:我觉得在构建这些模型的过程中,你会获得一种直觉和敏锐度,而这种感觉从外部看是很难体会到的,因为我们能看到所有的数据点,也能看到为了实现这些提升所付出的所有努力。所以,这个答案包含两个部分。第一,我认为其背后的基础科学是最神秘、也是我所能想象的最重要的科学发现和经验观察之一。我们竟然能够真正构建出这些模型,而且缩放定律依然有效!事实就是,你只要继续用更多的数据、更多的算力、更好的架构去训练这些模型,它就会不断进步。过去每次我们碰到“哦,这好像没有像我们预期的那样扩展”的情况时,最后查出来都是我们自己出了问题,要么是有个漏洞,要么是我们的数学公式没算对,要么是我们的代码实现跟数学公式没对上。我觉得内化这一点非常重要。

实际上,我们做过研究,如果你回到这个领域的起点,神经网络本身是在 20 世纪 40 年代就被设计出来的,那时候甚至还没有计算机,它最初只是作为大脑如何处理信息的一个模型;而第一个硬件实现是 1959 年的感知机。如果你观察该领域的里程碑式成果,就会发现它们都遵循着一条极其平滑、确定性的路径,那就是随着更多的算力被倾注进去而不断突破。这 70 年、甚至快 80 年来,一直有人在说“这玩意儿永远行不通、永远无法扩展、马上就要撞墙了”。但直到今天,它还没有撞墙,而且视野中依然看不到任何墙的存在。

所以,我认为从底层逻辑上它是允许持续进步的。当然,实际操作起来非常困难。真正去建造那些庞大的超级计算机很难、很贵,一点都不容易。我们的团队付出了极其艰苦的努力去解决这些难以想象的技术难题。我们甚至不得不设计自己的网络协议;我们的团队成员必须审视技术栈的每一个层面。图表上任何一个诡异的波动你都得揪出来,理解这些神经网络的方法就是:这里面没有抽象。这就好比任何一个小地方出错了,都会产生涟漪效应,并在最底层的某个地方暴露出来。因此,你需要人们对所有这一切都有极其深入的理解。然而,如果你把对的团队凝聚在一起,把对的使命放在大家面前,大家愿意去啃这个硬骨头,那么最终的成果是完全值得的,而且是完全可以实现的。基于这些原因,我认为这种进步会持续下去。

我们正走向一个由算力驱动的经济体,根本不会有足够的算力来满足需求

主持人:那我很想听听你的看法。如果模型基本上可以从现在的水平走得更远,假设 OpenAI 建造出了最强大的模型,它相当于一个拥有 15 个博士学位、同时具备极高情商、从不抱怨并且能替你出去办事的存在;而下一个模型制造商可能造出一个没那么好、但也有 13 个博士学位、情商也很高、同样能替你办事的模型。那么,当大家都卷到这种智能水平时,差异化到底体现在哪里?因为我们看到现在的模型制造商基本上都是并驾齐驱的,一个取得了突破,下一个马上就跟上并实现了同样的突破。到了那个时候,还有可能产生差异化吗?

Greg:我觉得这个问题要从几个维度来回答。第一,我确实认为存在一种“吸引子状态”。也就是说,单纯从商业模式的角度来看,每个算力提供商的算力都会被抢购一空。我认为我们正在走向这样一个世界:根本不会有足够的算力来满足所有的需求。我们正走向一个由算力驱动的经济体,每个人都会无时无刻不在使用这些模型来完成他们感兴趣的任务。我们现在就能看到这一点。现在我们还在讨论算力限制,而目前使用这些智能体的人口规模大概也就一千万、两千万左右,我们还没达到行星级的规模。ChatGPT 拥有十亿用户,但我们还没有把这种智能体的力量带给这么大规模的用户,所以你可以看看这些放大系数。而且与未来的方向相比,现在的使用深度也微不足道。因此我认为,即使未来有不同的供应商、不同能力水平的模型、开源模型以及所有这些新型云服务,算力在未来依然会是最稀缺的资源,而且它都会被投入使用。

所以从某种程度上说,对于“这算不算一个好生意?新玩家应不应该进场?”这类问题,我的答案实际上是肯定的。我认为这是一个巨大的市场,光靠我们是根本无法满足的,我们需要在这个领域注入更多的能源和势头。

智能并不是一个单一维度的东西,不同公司之间将会有巨大的差异化空间

Greg:但第二个维度是,这种担忧忽视了一个事实:智能并不是一个单一维度的东西。 如果你真正聚焦来看,在不同领域的擅长程度是完全不同的。即便你拥有极高的原始智能,但如果你从未练习过,比如你从没做过商业提案,那你第一次做的时候绝对做不好。所以,这是我们一直在内化的一件事:我们审视不同的行业和不同的领域,我们必须有所取舍、排出优先级。我们不可能同时在每一个领域都做到极致。确实,随着你把通用智能提上去,它会体验并学会很多这类事情;但要真正成为一个特定领域的专家、真正达到那个领域的博士水平,并真正帮助推动一个行业的雄心向前迈进,那是一件非常艰巨的任务。

顺便说一句,我还想说的是,理解当你成功做到这一点时会发生什么非常重要。对此建立一个良好的思维模型很有必要,你可以回想一下当年 AlphaGo 的时期。还记得第 37 手棋吗?那一手棋彻底改变了人们对围棋这项游戏的认知,而现在下围棋的人比以往任何时候都要多,它实际上激发了人们去探索更多。我认为在 AI 领域我们也会看到同样的现象。所以,我认为这种探索的深度是永远不会停滞的。在科学领域你能走多深?有时候人们会觉得:“我们已经发现了所有的物理学规律,一切都很完美,我们大功告成了。”但我认为这绝对不是我们所追求的未来。我们追求的未来是:每当你解开一个谜团,每当你解决一个未知,它就会随之开启另外 10 个新的谜团。因此,我认为未来还有太多太多的事情要做,不同公司之间也有着巨大的差异化空间。

OpenAI 是否怀疑过能否赚回算力支出成本?

主持人:所以, 你的信念是,也许每个人都有办法去扩大这些模型的规模,但最终拥有最多算力的公司才会赢得胜利。几个月前我们聊天时你曾提到,内部有人问你:“我们应该买多少算力?”你说:“全部买下。”他们说:“不,说认真的,我们到底该买多少?”你回答:“不,把所有的都买下来。”OpenAI 在购买算力方面绝对是领头羊。我是说,我们能看到大笔的资金流出,显然,通过投资也有大笔的资金流入,而且现在你们已经建立起了拥有客户的业务,但流出的资金依然极其庞大。你有没有哪怕一瞬间怀疑过:“由于这是一个全新的行业品类,也许我们未来会没办法把这些钱赚回来?”

Greg:我的看法的出发点是底层逻辑。你需要真正看到一个现实,那就是算力的发展规律是:从你开始投入到算力真正交付到位,往往需要好几年的时间(这取决于你具体在做什么)。例如,我们投资自己的芯片项目已经好几年了,并且取得了令人极其兴奋的进展,实际上我们很快就会宣布更多的消息。

但我们能够做到这一点是非常独特的,真正去思考供应链的全面垂直整合。而且我认为,我们正在走向的世界依然是那个全人类的算力总和都无法满足所有需求的世界。我们非常具体地看到了这一点:回想一下 ChatGPT 当时的指数级增长,再看看我们现在所处的指数级曲线上。想想我们现在能够解决的问题——其实挺有意思的,就在前几天,我们刚刚宣布了在化学领域的一个新成果,基本上是能够合成全新的、改良的反应。而所有这一切甚至还没引起太多的关注。正如我刚才所说,如果你在一个领域深挖下去,你就能真正颠覆它,而我们现在连皮毛都还没回收到。所以,思考这个问题的方式是:整个经济体的体量是如此巨大,从我们自身的增长、人们愿意支付的意愿,以及整个行业的规模和增速中,我们非常真切地感受到了这一点。因此,我思考最多的是:我们如何满足这些需求?以及你如何真正提供能够支持人们在经济体中想做的所有工作的技术?我认为这是一个极其宏大的命题,我们现在还没有任何人能真正完全内化它。

一场价格战正在酝酿,如果在降价的同时赚回成本?

主持人:是的,但恕我直言,一场价格战正在酝酿之中,至少根据媒体报道是这样的。《华尔街日报》最近报道称,OpenAI 即将推出的一款新模型可能会大幅降价。所以回到刚才的问题:如果满足这种不断增长的需求需要耗费如此庞大的资源,而在一个可能会降价的环境中,你们如何让这笔账算得通?

Greg:我还是从另一个角度来看待这个问题。如果你看看我们一路走来的整个历史,我们实际上一直在做的一件事就是:在保持同等智能水平的前提下,不断提升智能并削减价格。然而,人们的需求总是在持续爆发。

所以,我认为前沿的、最顶尖的智能永远会是最昂贵的东西。但一年后,现在的这种智能水平就会让人觉得稀松平常,并且会变得触手可及。我认为我们目前所处的阶段,是人们开始真正思考“价值”的阶段。这是一个非常有趣的转变:在过去,比如今年第一季度甚至到目前为止,人们的态度普遍是“AI 智能体这玩意儿太新了,我们必须把它引入我们的企业,我们不想被时代抛下,我们如何成为这个未来的一部分?”而现在,人们开始说:“好吧,让我们确保这东西能真正带来投资回报率(ROI)和实际价值。”我其实认为这是一个极好的状态,因为人们开始问正确的问题了。而就在最近,我们刚刚发布了成本控制工具。所以,我们确实在企业级准备度以及客户明确告诉我们他们所需的工具上投入了巨大的精力。

我认为,这也是我们作为一家公司正在经历的转变。不仅仅是想着“嘿,我们要发布模型、我们要拥有一个模型”,而是真正去思考端到端的业务。我们如何将这些技术带入千行百业,去为真正的客户解决真正的问题?这在每一个行业都在以极快的速度发生。大量的不同公司依然觉得自己还在努力琢磨如何最好地利用这些模型,而我们也在和他们共同学习。对我来说,在这场大博弈的早期阶段,整个市场绝对规模的扩张速度之快、我们自身收入水平的飙升速度之快,我认为我们现在还没有人能预料到这条曲线未来会走得有多陡峭。

OpenAI 会降价,但短期内会并不会发生翻天覆地的变化

主持人:那么,你们会降价吗?

Greg:所以,答案永远是“会”,对吧?但我认为接下来会持续发生的是,我们不断拥有最前沿的模型。我不认为在短期内会发生什么翻天覆地的剧烈变化,我不觉得会发生那种事。但我认为你应该预期的是,在接下来一年的时间跨度里,去获取今天看起来非常顶尖的智能水平,将会变得便宜得多。但届时又会诞生一个全新的东西,它会比现在好得多,以至于你会纳闷:我以前为什么会去用那个旧的?事情往往总是这样发展的。

微软 CEO:模型正变为商品?为什么 Hopper 老芯片到现在还能卖出天价?

主持人:Satya Nadella(微软 CEO)最近发表了一些非常有意思的推文和采访。他最近表示:“模型正在变成一种商品,而真正有价值的资产是企业特有的 AI 系统,它能不断从你的数据中学习。”你对此怎么看?现在和微软产生竞争关系,会觉得怪怪的吗?

Greg:我不认为这层技术栈里的任何一个层面会平白无故地从价值链中被剔除掉。我认为这些东西是乘数效应,是结合在一起发挥作用的。如果你想想最底层的算力,那是“没有算力就没有 AI”的基石。在某种程度上,你可以说:“哦,算力已经被商品化了,它无非就是浮点运算,谁在乎呢?”但现实中,你看看今天的芯片股,看看那些售卖算力的人,看看市场目前给他们的估值,就会发现大家都意识到这是一个极其关键的核心资产。我认为这是因为它是一个营收中心,是任何构建 AI 的人都必须依赖的东西,而且在你能挤出来的效率、利润率等方面,有着一整套非常有趣的动态平衡。所以从根本上说,即使你眯起眼睛看觉得它被商品化了,其实并没有。它的价值不会消失,利润率也不会消失。这是市场会给予回报的东西,因为它具有底层的核心价值,而且随着时间的推移,它的重要性只会上升。

你从人们为 H100 支付的价格就能看出来。Hoppers现在并没有过时,它们只是上一代的芯片。在任何供需不处于极端紧张的正常情况下,都没人会去买它们。但相反,现在的市场价格比以前还要高。所以这种反转正在发生,而且我认为它会持续发生,因为每个人都面临着海啸般的需求,你会看到价格、利润率以及所有这些东西在技术栈的各个层面上持续增长。

我认为同样的道理也适用于模型,模型本身也面临着激烈的竞争,我认为这非常好。这对企业、对客户、对消费者都有好处。但我也认为在很多领域,例如我们的模型向来都是最聪明的,是那些能够解决难以想象的超级难题的模型。我认为我们才刚刚开始进入一个由其带来颠覆性影响的阶段,

如果我们真的能够通过模型来加速科学进程,模型越聪明,这个进程就会推进得越快。这与那种只带一个对话界面、只能帮你订订机票或者整理下日程表的模型是截然不同的。所以这也是一个我认为我们会做得非常出色的维度。我只是想说,这是一个不同的领域。然后关于“你如何真正将智能与你自己的客户、真正的价值连接起来”的问题,你有这么多在不同领域建立起惊人业务的企业,这是一个巨大的工程。如果你没有行业深耕的专业经验,你是不可能做好的。部分原因在于你必须考虑合规行业,考虑任何需要深思熟虑的交互领域,在所有这些领域和赛道中,通过深入其中并思考工作流应该如何运转、这些模型应该如何编排,可以创造出巨大的价值。因此,我真的认为市场空间足够大,容得下所有人。我们需要作为一个完整的生态系统共同努力交付价值。

微软到 2032 年都有权访问 OpenAI 的 IP,Greg 怎么看?

主持人:好的,让我再绕回到萨提亚的那一点。他把模型称为“商品”,他同时也在尝试构建自己的前沿智能。他可能在对你们的客户说:“嘿,你们得来和我们合作,因为我们会帮你们构建这些能从你们的数据中学习的闭环。”而且我没记错的话,他直到 2032 年都有权访问你们的知识产权(IP)。那么,听到萨提亚说出这些话,你心里是什么感受?

Greg:我认为眼下正在发生的最重要的事情,是 AI 在经济体中的应用,它正在真正颠覆整个经济并造福每一个人。所以,这才是我真正专注的事情。只要有越来越多的人在努力推动这件事发生,我认为对每个人来说都是更好的。

AI 最令人震撼的潜力之一,在于它能在多大程度上改善人类的健康

主持人:好的。那么我想在“健康”这个话题上结束今天的采访。你刚才提到了几次,之前台下的观众也问过相关的问题。有时候你读到一个故事,你会对自己说:“我知道这个人正在对媒体发声,我也知道他们说的话听起来像是真的。但这个故事总觉得哪里不对劲,我们以后估计不会再看到更多类似的案例了。”我最近就读到了几个这样的故事。一个是关于你的朋友、GitLab 的 CEO 席德·希布兰迪。他不幸患了癌症,于是他去做了所有他能做到的诊断性检测,疯狂地进行检测,接着在一些开发了定制化应用的人的协助下,把所有这些数据喂给了 ChatGPT。我不知道用“治愈”这个词合不合适,但他在一定程度上击退了癌症。

还有一个是关于澳大利亚一只叫罗茜的狗。这简直是最疯狂的故事。主人对这只患癌的狗进行了活检,接着把基因突变数据放在 AlphaFold 上运行,然后在聊天机器人的协助下,设计出了一款 mRNA 疫苗并注射给了这只狗。最后这只狗居然又恢复了活力、能跳过桌子了,而且肿瘤也缩小了。当我们思考 AI 与健康的未来时,请帮我们梳理一下这背后的真相:这两个案例究竟只是为了赚取眼球、背后隐藏了某些未知事实的极端特例,还是说这在未来会成为一种常态?

Greg:绝对会。我个人就有许多朋友做过非常类似的事情:拿到自己的健康诊断数据,然后利用 Codex 或者是这些模型从中获取洞察。我认为现在已经有非常多的人在这么做了。据统计,目前每周大约有 2.3 亿人使用 ChatGPT 咨询健康问题,这是一个令人震惊的庞大规规模。这些用户有时候会上传自己的影像扫描件,有时候是因为不同的医生给出了相互矛盾的诊断结论。长期以来,我们所处的环境并没有赋予患者足够的自主权。在很多情况下,患者不得不被迫自己去当那个“医生”和最终的拍板者,并且你要为结果承担全部责任。一旦医生犯了错,你可能要用余生去买单,这种激励机制是完全不对等的。

这对我个人来说是非常感同身受的经历。我的妻子患有多种健康状况,说实话,如果没有 ChatGPT 的帮助,我甚至不知道现在该如何去管理和应对她的许多病情。而我们现在仅仅处于这段旅程的起点。即便是你拥有最顶尖的医疗团队、最好的医疗资源、最权威的专家,人类能做的事情依然是有限的。

所有这些问题,我们未来都应该能够通过这些 AI 工具得到巨大的改善。因此,我认为这种个性化医疗,无论是针对大众市场的新药研发,还是像我今天早些时候提到的针对“N = 1”(即极其罕见的罕见病)的特殊疾病诊断,亦或是单纯为了理解某种病症并寻找新的潜在疗法,正在我们眼前真实地发生着,这绝非空谈。我认为 AI 最令人震撼的潜力之一,就在于它能在多大程度上改善人类的健康。

你可以想想这对整个社会系统带来的涟漪效应:目前医疗健康系统占据了大量的社会支出和经济份额,如果你能真正帮助人们预防疾病、在潜在的健康问题恶化之前占得先机,这将会极大地减轻整个社会的负担和压力。我们现在正面临着医生和护士普遍严重倦怠的现实危机,而如果我们在部署和使用 AI 时做到明智、妥善,它将能够在这方面提供巨大的帮助。因此,将 AI 应用于医学领域,是我个人在思考我们正在构建的事业以及我们在 OpenAI 努力实现的目标时,非常核心的个人驱动力。我由衷地希望,我们作为一个整体和社区,能够充分利用好这一点。