出品 | 搜狐科技

黄仁勋:未来自己会以数字人形式永生,这是首先要交给机器人做的事

作者 | 梁昌均 王一鸣

北京时间7月30日凌晨,在美国当地时间举办的SIGGRAPH上,英伟达CEO黄仁勋(Jensen Huang)和《连线》资深撰稿人 Lauren Goode(劳伦·古德)进行了一场炉边谈话,探讨了生成式AI有关的技术、伦理和未来发展趋势等。

黄仁勋首先回顾了计算机行业的一些关键时刻,称英伟达所做的一切背后都是加速计算。他提到2012年英伟达开始研究深度学习,2016年为此建造了之一台计算机DGX-1,并交给了OpenAI,其在2022年推出的ChatGPT则是革命性的产品。

“现在生成式AI已成为可能,这真的是一个革命性时代,几乎每一个行业都将被改变。”黄仁勋表示,科学计算、内容创作、工业可视化、机器人和自动驾驶等都将被生成式AI改变。

同时,他认为,生成式AI正推动向软件3.0迈进。“未来每个研究员不是使用机器学习来学习新的AI,基础模型已经预训练好,开发软件的方式可能会非常像组建一个由各种AI能力的专家组成的团队。”

关于AI的幻觉问题,黄仁勋表示,GPT的强化学习人类反馈,且只会专注于被训练去做的事情,以及检索增强生成的能力,这三个组合使文本能够做到更加有用和可控。

对于图像或视频而言,黄仁勋表示,英伟达创建了一种方式,能够通过更多的条件来控制和对齐,Omniverse也可以组合不同模态的数据和内容,并可以控制它,可以改变姿势,可以改变位置,背后是3D增强生成技术的突破。

“我认为可能会看到的是,现在的生成式AI将比以前更容易控制。”黄仁勋表示,使用Omniverse和生成式AI可以更好地控制生成的图像并减少幻觉,这两种工具都帮助提高生产力,很有可能将改变所有的工作方式。

他认为,未来每个人都将有一个AI助手,公司中的每一个工作都将有AI作为助手,都会被AI增强。“没有AI,Hopper就不可能实现;没有AI,Blackwall就不可能实现。”他还透露,这周英伟达正在交付Blackwell的工程样品。

黄仁勋还宣布推出数字 *** 微服务——AI数字人。“它有能力说话,与你进行眼神接触,以一种有同情心的方式进行动画 *** 。”

对于由此产生的伦理问题,比如让人们开始会误以为AI是人类的问题,黄仁勋回应称,数字人技术已经非常逼真,但大家都知道它仍然是一个机器人,所以这并不可怕。

黄仁勋还强调,英伟达一直是一家软件公司,因为加速计算需要设计加速器、编写代码等来实现。“通过重新设计整个堆栈,可以将应用程序加速20倍、40倍、50倍、100倍。”

他提到,在过去的时间里,已经将深度学习加速了100万倍,这就是现在有可能创建这些大型语言模型的原因,而成本和能源减少100万倍使通用的生成式人工智能成为可能。

面对技术调整和市场竞争,当被问到“是什么让你夜不能寐”时,黄仁勋感叹建立一家公司真的很难。

“通用计算是最简单的方式,我们已经这样做了60年,为什么不继续这样做呢?”他认为,加速计算只有在提供非凡的速度提升时才成为可能,而每一次开拓新市场,都要重新发明所有的计算。

对于生成式AI带来的能耗问题,黄仁勋表示,加速计算可以帮助节省大量的能源,且生成式AI具备记忆能力,减少了通过 *** 运行到数据中心检索并将其带到 *** 上所需的能量。最后,AI并不关心它在哪里训练,未来需要把数据中心转移到更靠近能源过剩的地方。

对于开源的问题,黄仁勋强调开源很重要。“如果没有开源,所有行业和所有公司如何能够参与人工智能,这使人工智能的大众化成为可能。”

他还表示,下一波AI浪潮是物理AI,英伟达为此建立了三台计算机,这些计算平台将共同推动全球开发者进入物理AI驱动的人形机器人的时代。

在对话最后,黄仁勋还表示,绝对会有一个Jensen人工智能。“我曾经说过的每一句话,我曾经写过的每一个字,以及我曾经做过的任何事,都可能会被吸收到这些生成式AI模型中。我希望这会在未来发生,这是我首先要交给机器人去做的事情。”

以下是对话实录(经删减整理)

Lauren:SIGGRAPH从1974年开始,英伟达今天在这里的意义是什么?

黄仁勋:SIGGRAPH过去是关于计算机图形的,现在它是关于计算机图形学和生成式AI。我们都知道英伟达的旅程,它开始于计算机图形。我做了一幅关于我们旅程的漫画,这些都是计算机行业中最重要的时刻。

IBM系统360,现代计算的发明,1975年的Utah teapot,1986有了可编程着色处理,否则大多数动画电影都不可能完成。1993年,英伟达成立,1995年的Windows彻底改变了个人电脑行业,让每个家庭和每张办公桌上都有一台多媒体个人电脑。2001年我们发明了之一个可编程着色处理GPU,这推动了英伟达的事业。

我们所做的一切都是为了加速计算,通过创建一种计算模型,可以增强通用计算,这样就可以解决普通计算机无法解决的问题。我们首先选择的应用程序是计算机图形学,计算机图形学属于计算密集型。

自从计算机图形学诞生以来,实际上就需要超级计算机来绘制一些原始场景。所以我们长期以来一直致力于加速计算,推广CUDA到每个GPU,与应用程序兼容,这是一个伟大的决定。

2012年我们之一次接触了人工智能AI,它是计算机视觉领域的一个突破,核心是深度学习,它是一种编写软件的新 *** 。我们改变了公司的一切,从处理器到系统,到软件堆栈,所有的算法,图像基础研究转向深度学习。我们为深度学习构建的之一台计算机DGX-1,它为自动驾驶汽车和机器人等建立模型,可以做到人工智能生成图形。

Lauren:你在去年的SIGGRAPH主题演讲中提到RTX光线追踪极限是计算机图形遇到人工智能的重要时刻之一,RTX在2018年的重要性是什么?

黄仁勋:2018年英伟达发布了RTX,它是世界上之一个实时、交互式光线跟踪平台。这是计算机图形遇到人工智能的重要时刻之一。它通过并行处理器来计算光线追踪,但一开始光线追踪大约是每秒只有10帧,分辨率是1080P。

现在有了DLSS,它可以通过渲染一个像素,同时使用人工智能来推断其他像素。现在我们能够以4K的分辨率,以每秒300帧的速度渲染光线跟踪,拥有完整的路径跟踪模拟,这完全由人工智能实现。

来到了2022年,ChatGPT问世,它是革命性的,是AI历史上增长最快的服务。自从ChatGPT发布以来,行业研究人员已经想出了如何使用人工智能来学习一切,不仅仅是单词,而是学习图像和视频的含义,以及三维化学、蛋白质、物理、热动力学、流体动力学、粒子物理。

生成式AI已经成为可能,这是一个革命性的时代,几乎每个行业都会受到影响。无论是科学计算,试图用更少的精力更好地预测天气,增强创作者生成图像或为工业数字化生成虚拟场景,还是机器人技术,自动驾驶汽车都将被生成式AI改变。

现在我们的机器正在学习如何编写软件,编写人类无法解决的问题的软件,我们以前几乎无法想象。Andrej Karpathy开发了机器学习软件2.0,现在正在向软件3.0发展。你可能会从预先训练的模型开始,开发软件的方式很像是由具有各种人工智能能力的专家组成的团队,有些人使用工具,有些人能够生成特殊的东西,它是通用人工智能,它非常擅长推理。

Lauren:在使用这些工具时会产生幻觉和低质量的输出,同时消耗了大量的能量。你为什么对此如此乐观?你认为是什么为我们指明了方向,让生成式AI变得更加有用和可控?

黄仁勋:ChatGPT的重大突破是RLHF(强化学习人类反馈),这是一种使用人类来产生正确答案或更佳答案的方式,以使人工智能与我们的核心价值保持一致,或使我们的人工智能与我们希望它执行的技能保持一致。它也只会专注于它被训练去做的事情,而第三个突破被称为检索增强生成,一切都被矢量化,在AI响应之前,它会从矢量数据库中搜索适当的内容,然后在生成过程中增强,这三个组合确实使文本做到这一点。

现在真正酷的是如何使图像做到这一点。英伟达正在创建的一个二维文本到二维的多模态人工智能模型,我们与Getty合作,使用他们的数据库来训练一个人工智能模型。你可以使用提示符并生成图像,但你很难控制这种提示,它可能会产生幻觉,可能生成一种不完全是你想要的效果。单词是非常低的维度,它的内容是极度压缩的,现在很难控制图像。所以我们创造了一种 *** ,我们可以更好地控制和调整更多的条件。

我们有AI Foundry,其他企业可以跟我们一起合作创建模型,他们提供数据,生成自定义AI模型。我们现在使用Prompt,生成一个3D模型,我们把它放在Omniverse中。Omniverse是一个可以合成数据和内容的地方,它可以是3D人工智能,可以是动画,可以是材料。我们使用Omniverse来组合所有这些多模态数据,从而可以实现控制,你可以改变姿势、位置,使用Omniverse中的图像进行调节。

Lauren:AI可能正在取代人类所做的某些事情,这对我的工作意味着什么?你认为界限是什么?

黄仁勋:这就是工具的作用,我们发明工具,工具要么助力我们的工作,要么与我们合作,这样我们就让我们更好地去工作,甚至会成就更大的事业,做以前不可能做的事情。你会看到的是生成式AI会更可控,我们通过使用RAG、检索和增强生成来控制,同时文本生成能有效地减少幻觉。

Omniverse和生成式人工智能可以更好地控制图像并减少幻觉,这两种工具都可以帮助我们提高工作效率,做一些我们无法做的事情。这样的工具不仅仅对于艺术家来说,我想说的是,很可能我们所有的工作都会改变。

未来每个人都会有一个AI助手,每一项工作都会有AI来协助人来完成,就像软件程序员有AI帮助他们编程一样。没有AI,Hopper是不可能的;没有AI,Blackwell是不可能的。

我们本周在这里宣布的一件事是数字 *** 的概念,AI数字任将增强公司中的每一个工作,其最重要的用例之一是客户服务。我们创建了客户服务,基本上是一个微服务,它位于云端。

一个数字人前端基本上是一个IO,它有能力说话,与你进行眼神接触,以一种有同情心的方式进行动画 *** ,你可以选择将你的ChatGPT或你的AI连接到数字任。你可以与AI聊天,它生成文本,然后将文本转换为语音,这个语音再驱动面部动画,然后通过RTX路径追踪,这就是数字人的渲染。所有这些技术都可供开发者使用,你可以选择你想要使用的部分。

Lauren:你如何看待这个事情的伦理问题?这些技术正在被推向世界,你认为一个非常像人类的聊天机器人,应该表明它是一个聊天机器人吗?它是如此像人类,以至于人们会误以为它是人类。

黄仁勋:它仍是相当机械的,我认为我们已经让数字人技术变得非常逼真,但你和我都知道它仍然是一个机器人,所以我认为这并不可怕。在许多不同的应用场景中,人类的参与比对话的文本框更吸引人,可能有人需要陪伴,医疗保健需要给门诊病人提供建议,帮助老年人,需要家教来教育孩子。所有这些不同的应用场景都更适合有一个更像人类的人,能够与之建立联系。

Lauren:这些都是软件开发,它们依赖于你的GPU,但最终是软件。同时,还有一些公司,在软件和云服务方面正在寻求更深入地进入底层,可能正在开发自己的芯片,软件战略对英伟达保持其领先地位并实现增长的承诺有多重要?

黄仁勋:我们一直是一家软件公司,因为加速计算不是通用计算。通用计算可以运行任何C语言或C++程序、Python,几乎每个人的程序都可以编译并有效运行。

不幸的是,当想要加速流体动力学时,你必须理解流体动力学的算法,必须设计一个加速器,必须设计GPU上的代码,使其可以理解算法,以便能够很好地加速它。这样做的好处是,通过重新设计整个堆栈,我们可以将应用程序加速20倍、40倍、50倍、100倍。例如,我们刚刚将英伟达 GPU放入GCP中运行Pandas,这是世界上领先的数据科学平台,我们加速了50到100倍,超过了通用计算。

在过去的时间里,我们已经将深度学习加速了100万倍,这就是现在有可能创建这些大型语言模型的原因,成本和能源减少100万倍使通用的生成式人工智能成为可能。

通过设计新的处理器、新的系统张量核心GPU,NVLink交换机结构,是完全突破性的AI,当然系统本身、算法、分布式计算库我们称之为Megatron,每个人都使用Tensor RT L1,这些都是算法。如果你不理解算法,应用程序就很难弄清楚如何设计整个堆栈。

Lauren:英伟达未来的软件生态系统中最重要的部分是什么?

黄仁勋:每一个领域都需要一个新的库,我们称之为DSL,领域特定库。在生成式AI中,DSL叫做cuDNN。对于量子仿真叫做CuQuantum,计算光刻使得我们能够帮助行业推进下一代工艺技术。库的数量不断增加,每一次我们引入一个领域特定库,都将加速计算进入到一个新的市场。它需要这种合作,库的完整堆栈、架构、市场推广以及围绕它的开发者和生态系统,才能开辟一个新的领域。所以这不仅仅是构建加速器,还必须构建一个完整的堆栈。

Lauren:你对未来的探索,你的创新取决于很多事情,必须继续推动物理定律的极限,也总是有竞争对手在紧追不舍,是什么让你夜不能寐?会继续向你预计的乐观方向发展吗?

黄仁勋:对我来说,建立一家公司真的很难,事情也从来没有向我们的方向倾斜,必须有意识地将未来变为现实的加速计算。世界需要通用计算,因为它很容易,只需要拥有软件,它每年运行速度提高两倍,每五年提搞10倍快,每十年提高100倍,有什么不好的?当然,你可以缩小一个晶体管,但你不能缩小一个原子,最终CPU架构走到了尽头。所以它不再有意义了,因为技术没有给我们带来飞跃。但加速计算擅长一切,可以擅长这些不可思议的事情,从深度学习到量子模拟,到分子动力学,流体动力学,再到图形计算学,所以我们创建了这种加速计算架构来做到这一点。

但这是一场逆风战斗,因为通用计算是最简单的方式,我们已经这样做了60年,为什么不继续这样做呢?所以加速计算只有在提供非凡的速度提升时才成为可能,当能源变得越来越稀缺,当不再仅仅依赖CPU曲线时,我们需要另一种 *** 。但几乎每一次我们想要发展的时候,就必须去学习它。这就是为什么我们正在研究机器人技术和自动驾驶汽车的原因,打开这些市场要理解必要的算法,并理解下面的计算层,这样我们才能提供非凡的结果。每一次我们开拓一个新市场,医疗保健,数字生物学,都要求我们重新发明所有的计算。

Lauren:生成式人工智能要消耗大量的能源,有数据称数据中心未来十年消耗全球能量的占比将达到6%,你认为未来是否有足够的能量来满足你想要做的事情的需求?

黄仁勋:首先有两三个或三四个模型制造商正在向前沿推进,今年可能有三倍多,但仍然是非常高的个位数,就算10家,而且这些模型的规模,每年增加一倍,可能比这更快。为了训练一个规模是原来两倍的模型,需要的不仅仅是两倍的数据,计算负载每年可能增长四倍。

这就是为什么Blackwell如此备受期待的原因之一,因为我们使用相同的能源加速了应用程序。这是一个在恒定能源、恒定成本下加速应用程序的例子,它越来越便宜。

世界上有很多公司,他们的数据中心遍布各地,英伟达向很多公司和很多不同的数据中心销售GPU。那么核心发生了什么?实际上正在发生的之一件事是CPU拓展结束和加速计算的开始。世界各地的数据中心,它们都在转移,每个人都在从CPU转向加速计算,因为他们想要同样的能量。加速计算可以帮助节省大量的能源,20倍,50倍,并进行相同的处理。

我们首先要做的是尽可能加速每一个应用程序,如果你正在进行Spark数据处理,用加速的Spark运行它,这样你可以减少20倍所需的能源。如果你正在进行SQL处理,进行加速的SQL处理,这样你可以通过减少20倍的功率。所以如果你正在进行天气模拟,或者无论你正在进行什么样的科学模拟,用GPU可以加速它。很多这些应用程序过去都是在CPU和通用计算上运行的,所有这些都应该加速计算。

现在正在发生的之一件事就是减少世界各地使用的能源量,我们的GPU密度和加速计算的密度更高,能源密度更高,但使用的能源量显著降低。生成式AI的能源消耗,可能占世界能源的1%左右。但即使数据中心消耗了4%的世界能源,生成AI的目标不是训练,而是推理,理想情况下我们创建新模型来预测天气,预测新材料让我们优化我们的供应链,减少能源消耗和浪费汽油,所以目标实际上是减少96%的能源消耗。因此非常重要的是,必须从纵向的角度考虑AI。AI客观上将提高生产力,它将使我们能够发现新的科学,而且会更加节能,这就是加速计算。

生成式人工智能的影响的第二件事是记忆,传统的计算方式被称为基于检索的计算,一切都是预先录制的,所有的图像、视频都是预先录制的,一切都存储在数据中心的某个地方预先记录。生成式人工智能减少了通过 *** 运行到数据中心检索一些东西并将其带到 *** 上所需的能量。数据中心并不是唯一消耗能源的地方,世界上的数据中心只是总计算的40%。60%的能量消耗在互联网上,移动电子、移动比特和字节。生成人工智能将减少互联网上的能源数量,因为我们不必去检索信息,可以在现场生成信息,因为我们了解上下文。我们可能在设备上已经有了一些内容,可以生成响应,这样就不必去检索它。

最后,人工智能并不关心它在哪里训练。今天的数据中心建在社会所在的电网附近,因为那是我们需要它的地方。未来会看到数据中心在世界上不同的地方建立,那里有多余的能源,只是要花很多钱,也许是在沙漠里,也许是在有很多可持续能源的地方,那里水也很充足,我们可以把数据中心放在人口较少而能源较多的地方。还有很多来自太阳的能量,世界上有很多能源。所以我们需要做的是把数据中心移到更靠近能源过剩的地方,而不是把所有东西都放在人口附近。

Lauren:我想问你开源的问题,我知道你将会和马克·扎克伯格谈论这个问题。

黄仁勋:开源真的很重要,如果没有开源,所有行业和所有公司如何能够参与人工智能。今天都在用Llama 2,Llama3.1刚出来,人们对此非常兴奋。这使人工智能的大众化成为可能,并让每一个行业都参与到人工智能中来。

我想说的是,之一次浪潮是加速计算,减少能源消耗,让我们能够满足持续的计算需求,而不是让能源继续增长。所以加速一切,它使生成AI成为可能。

生成式AI我们知道有许多先驱,OpenAI、Anthropic、谷歌、微软、xAI,很多了不起的公司都在做这件事。我们希望我们能够给每一个企业创造他们自己的AI的能力,所以每个人都会被增强,并有一个协作的AI,可以赋予他们权力,帮助他们做得更好。

下一波AI之后被称为物理AI,我们将需要三台计算机,一台计算机来创建AI,另一台计算机来模拟AI,两者使用合成数据生成,第三台是实际运行AI的计算机。这是一个三台计算机的问题,是一个三体问题,它非常复杂。我们为此创建了三台计算机,在每一台计算机中,无论你想使用软件堆栈,算法,还是仅仅是计算基础设施,仅仅是机器人的处理器,运行的功能安全操作系统,以及AI和计算机视觉模型或仅计算机本身,都是开放的。物理AI的时代已经到来,这些计算平台共同推动全球开发者进入物理AI驱动的人形机器人的时代。

Lauren:人们正在创造真正令人惊叹的数字媒体,你正在用你的技术加速它。未来人们对文件、格式、档案的访问以及创造或生活会有什么改变,机器人也将存在,我不担心他们会接管,对吗?

黄仁勋:这是一个很好的问题。我们深信的格式之一是Open USD,它将几乎每一种工具的多种模态结合在一起,并允许它进行交互,组合在一起,进出这些虚拟世界。随着时间的推移,你可以理想地将任何格式引入其中。

在这次会议上,我们宣布通用机器人数据格式URDF可以兼容或者被吸收到开放的USD中,我们将把所有东西都变成一种通用语言,使用标准是允许内容和数据共享、允许每个人在其上协作并永久存在的更佳方式之一。例如如果没有HTML,每个人都很难访问来自世界各地的所有这些不同的内容。因此在很多方面,Open USD是虚拟世界的HTML,我们是它的早期推动者,很多公司已经加入。我希望世界上的每一个设计工具都能够连接到Open USD,一旦你连接到虚拟世界,你就可以在任何地方使用任何工具与任何人协作。

Lauren:你说这些内容可以实现永生,你要建造一个永远活着的Jensen人工智能吗?

黄仁勋:绝对会有一个Jensen人工智能。我曾经说过的每一句话,我曾经写过的每一个字,以及我曾经做过的任何事,都可能会被吸收到这些生成式AI模型中。我希望这会在未来发生,所以这是我首先要交给机器人去做的事情。