首页 人物 内文

我们也许都将在数字世界里得到「永生」

2024年1月18日 文/ 沈时 编辑/

也许5~10年后,每个人都有一个数字化身,就像互联网上每个人都有ID一样。它也许会成为新的个体记录的方式,就像全家福、个人写真甚至家谱曾经发挥的作用一样。

访谈|杨国安

整理|沈时

图|(除特殊标注外)视觉中国

计算机图形学:构建惟妙惟肖的数字世界

未来的我们,可能「活」在两个世界里。

一个是我们早已习惯的现实世界;另一个是曾经在我们对面、供我们浏览的互联网世界,我们将「身临其境」。比如,身处异地的两个人在虚拟世界里见面,会感觉像在现实中见面一样。如果你坐在我的右边,「当你说话的时候,声音就从我的右边传来」。或者,「你将能够作为全息图坐在我的沙发上,或者我将能够作为全息图坐在你的沙发上」。

周昆对这个未来充满期待。他46岁,是浙江大学计算机科学与技术学院教授、「科学探索奖」获奖人,一直专注于计算机图形学、虚拟现实及相关领域的研究。从大学三年级第一次进实验室算起,周昆在计算机图形学领域已经工作了近30年。

一方面是个人情感层面的期待,在越来越逼真的数字世界里,计算机图形学将是支撑其发展的关键技术,这意味着他和他的同行将得到一个更大的舞台。另一方面,他相信,在未来,数字世界会变得越来越丰富,也越来越重要,数字世界与现实世界将发生越来越深的融合,它们相互渗透,彼此影响。

周昆不愿过于具体地预测未来,「不同的人有不同的视角,我可以想象未来是一个什么样子,但你不见得会认同」,但有一点他很笃定:3D创作将会成为核心内容。就像PC(个人计算机)互联网有文字和图片,移动互联网有短视频,新世界里将会有3D内容创作。到那时,普通用户通过简单的描述就可以创作出属于自己的动画,就像现在发微博和制作短视频一样简单。

关于这一可能的未来,三维虚拟现实和增强现实领域的法国计算机科学家给出过更具体的细节,他们在2017年出版的书里想象,2027年9月6日,21岁的大学生玛丽(虚构人物)的一天是这样度过的:

早上醒来第一件事是戴上配有传感器系统和显示系统的隐形眼镜,然后穿上「高科技」衣服,它可与米粒大小的体内微型计算机通信。她有晨跑锻炼的习惯,穿戴完毕后便走到家中的「锻炼区」,开始与几位朋友「一起」晨跑。尽管他们的「肉身」都在各自家中,但他们的数字分身「相聚」在了虚拟世界里的挪威峡湾,在这里,他们可以像在现实世界里一样随意交谈,也可以看到彼此的状态好坏,甚至能够倾听彼此的呼吸。

到学校后,上课用的也是一套专门的设备(就藏在座椅的扶手里),学生们通过它进入虚拟世界,虚拟世界里的教学方便学生「更好地理解某些复杂的概念」。实验课上,解剖用的人体头部模型是数字化的,但看起来像真的一样,学生也能「触摸」到;练习网球时,「她的隐形眼镜会显示她发球的图像、球的轨迹以及球与网的碰撞,这样她就可以完全沉浸在训练中」;电视剧不再有固定的情节,「任何人都可以随意进行选择或混合」,「一千个人眼里有一千个哈姆雷特」不再仅停留在审美和理解的差异层面,而着实成了客观事实。

这样一个新世界的搭建,离不开计算机图形学。

如果将虚拟现实比作人,那么计算机图形学所做的,就相当于在构建虚拟现实的「肉身」(人工智能相当于在构建虚拟现实的「灵魂」)。就像画家用画笔和颜料将他们看见和想象的三维世界转化为画纸上的二维世界,计算机图形学是用算法将三维世界转化到计算机屏幕上。一言以蔽之,周昆和他计算机图形学的同行们做的工作,便是通过算法创造一个数字化的世界。

计算机图形学的起点是伊万·萨瑟兰(Ivan Sutherland)在1963年完成的交互式绘图系统「画板」——这符合我们对「计算机图形学」的直观印象——它最初的确就是研究如何用计算机显示图形,但它也像整个计算机科学一样,不断地在往更复杂、更高效和更智能的方向发展。现在,像《阿凡达》《玩具总动员》《少年派的奇幻漂流》这样的电影,以及画面越来越逼真的游戏,都有计算机图形学的重要贡献。从一个计算机科学家的视角看,帮助导演创造出电影里栩栩如生的角色和环境,以及未来可能的全真互联网所需要的更为复杂的计算机图形学技术,与当初萨瑟兰写出「画板」程序并无本质的不同。它们都是在将现实世界数字化,背后的支撑力都是算法与计算。

对普通公众来说,计算机图形学研究者的工作通常具有双重色彩。一方面——如果延展开来讨论的话——他们的工作很有科幻感,很「酷」;另一方面,他们的日常对普通人来说是枯燥乏味的,他们每天打交道的都是很具体的一个个问题和一堆外行人看不懂的公式、算法。他们与「科幻」的关系更多在于,他们的工作提示着我们的未来,他们是我们通往「数实共生」之路的铺路人。

周昆受访者供图

「蚂蚁」的革命

不过,计算机图形学研究者的乐趣,往往不来自于对未来的宏观构想。算法及其所附着的东西——高深也好,枯燥也罢——才是他们真正的乐趣所在。

「我可以不停地去探索一些未知的东西,现在没有人能做出来的东西。这肯定是一个很新奇的(体验)。」周昆说。

周昆很懂这当中的乐趣。比如,他提出的基于单幅图像的真实感头发建模、数字化身构建技术,已经授权给包括迪士尼、欧莱雅在内的全球1000多家企业;他提出的纹理映射的网格参数化方法也被游戏产业广泛采用......「很多这样的例子」。

计算机图形学的表达早已融入了我们的生活。「桌面」「图标」「窗口」,我们在使用个人计算机时早已习以为常的操作,其实都是通过图形来进行的。20世纪80年代之后,开始有了「真实感图形绘制」的研究,到了周昆入行时的90年代下半叶,「实时计算机图形学」诞生,而2010年以后,「智能图形学」兴起了。

计算机科学技术的迭代往往是需求触发的,计算机图形学需要解决的核心问题常常是,如何让虚拟世界更逼真?越逼真,意味着需要的数据量越大,那如何解决计算速度问题?「真实感图形绘制」「实时计算机图形学」都致力于解决真实感和计算效率协同的问题。

近些年,随着人工智能的再次兴起以及深度学习等技术的发展,图形学的智能化也成为研究者关注的议题。它研究的是,在创造虚拟世界的这个领域,如何让机器代替(至少是部分代替)人的工作。科学研究的路上总摆着各种问题,关键问题总是格外醒目。

但选择什么问题去解决,能最先解决什么,以及解决的方式是否巧妙、简洁和优雅,这是将科学家以及他们的研究区分开来的核心要素。

在周昆看来,选问题在科研工作中「可能是最重要的」,「你到底要解决一个什么问题,这个到后面可能是你的品位问题」。周昆的研究习惯是先选定一个「大的问题」,然后接下来5~10年都围绕着这个问题去开展研究。「大的问题」意味着它是一个系统工程(当然,从整个学科的角度看,它依然是一个「点」),解决它的过程中要解决和突破一系列的问题。

以周昆和他的团队于2009年开发的RenderAnts为例。RenderAnts是完全在GPU上运行的电影渲染系统,首次实现了将电影渲染流水线的所有阶段映射到GPU上运行。当时,工业界广泛使用的渲染工具是RenderMan,由皮克斯研发,《阿凡达》《玩具总动员》这些我们耳熟能详的电影都是用RenderMan做图像渲染的。同样的渲染效果,周昆团队开发的RenderAnts,速度是RenderMan的10倍以上。RenderAnts就来自周昆于2008年刚从微软亚洲研究院回到母校浙江大学的时候选定的一个「大的问题」——如何在GPU上做电影渲染。这是当时同行们普遍关注的待解难题。

这里先简单介绍一下「渲染」。电影或游戏里的动画场景呈现在观众面前之前,一般需要经历五道主要的工序(计算机的行话叫pipeline,中文翻译为「管道」或「流水线」):建模(modeling),动画(animation),渲染(rendering),交互,后处理。

这五道工序,通俗地讲,建模与动画都是创建「骨架」,只不过一个是静态模型,一个是动态模型;渲染是添加纹理、阴影等更多的细节,让它成为我们最终看到的样子;交互,就是增加互动功能;后处理则相当于文章发布之前的编辑和图片发布之前的处理。很多研究者会待在其中的一两个领域,周昆对五个领域都有涉猎。

在RenderAnts出现之前,电影渲染都是基于CPU的。CPU服务于通用计算,GPU则是因图形处理这一特殊目的而发展起来的专用处理器。二者的区别,从周昆为他的软件取的名字RenderAnts与皮克斯的RenderMan之间的对比可以看出来:RenderMan在CPU上进行的串行计算像是一个超人独自作战,而RenderAnts在GPU上进行的并行计算则像是很多个小蚂蚁一起协同作战;超人擅长复杂的计算,小蚂蚁只能做简单的计算。

如果面前是海量的简单计算,显然小蚂蚁一起工作,要比超人效率更高。GPU一般进行的计算都属于此类,即「规则数据结构的规则运算」,但电影渲染涉及的是复杂的计算,是「不规则数据结构的不规则运算」。到了2007年前后,随着GPU的发展成熟,一个问题就出现在了研究者面前:如何让电影渲染也搭上GPU的效率便车呢?

GPU效率高,但在GPU上做「不规则数据结构的不规则运算」需要强行把不规则的东西变成规则的,这当然是要付出代价的,问题的核心是,如何以尽可能低的代价实现这种「映射」?

研发RenderAnts的过程,用周昆的话说,便是「逢山开路,遇水搭桥」。数据结构的问题要解决——这些不规则的数据结构,怎么在GPU里构建和访问?算法的问题要解决——比如说,一道光线,照到物体表面会发生反射,有时可能还会发生二次反射,这一类的不规则计算如何「映射」到GPU上?还有编程和调试的问题,在GPU上写程序并不是一件容易的事,现有的编程语言和调试程序都「不好用」,「效率太低」,那就只能自己去开发GPU的编程语言和调试工具,这就好比搭桥之前还要自己去制造搭桥的工具。

现在回过头看,RenderAnts对周昆来说是一个「集大成」的工作,多个不同细分领域的研究经验都用得上,并且产出了「副产品」。他和他的团队在向RenderAnts进发的过程中,「顺便」做出了两项开创性工作:提出了新的GPU并行算法和更高效的编程语言,「让GPU程序像串行C语言程序一样易于阅读、编写和维护」。这有些像一个人出发去寻找宝藏,旅途中,他做生意赚了钱,买了越野车,还在阻拦去路的河上修了桥,当他解决沿路所有难题找到宝藏的时候,那价值连城的宝藏倒更像是一项水到渠成的嘉奖了。

寻宝的路上修了一座桥,这个比喻如果用到整个计算机图形学领域也是合适的。除了像电影渲染、数字人这样的常规研究领域,计算机图形学还有一些衍生的「领地」。比如,基于GPU的通用计算。尽管GPU最初是为图形处理而生的,但后来人们发现它擅长大规模的数据并行计算(很多小蚂蚁一起协同作战)的优势可以为其他领域所用。深度学习(deep learning)就从GPU的发展中受益良多,如今绝大多数的深度学习系统训练和实时运转都需要用到GPU。于是,基于GPU的通用计算也逐渐演变为一个成熟的研究课题和领域。

行走在两个世界之间

计算机图形学不断演化,涉足的「领地」越来越多,周昆自己的研究也是。2005年的时候,他做过一个研究,是用计算机生成有丰富纹理图案的数字模型。10年后,他开始研究如何打印出有丰富纹理图案的实物模型了。

2015年,周昆的团队发明了一种名为「计算水转印」的技术,尽管这不属于他所说的那种「大的问题」,但他很喜欢这个「有特色」的「小」项目,它的产生与产业发展、「技术的梦想」无关,而是源于平日「零零散散的灵感」。生活常常是灵感的来源,而计算机图形学几乎就是周昆生活中最主要的方法论。碰到一个新玩意儿,他第一个念头经常是,能不能使用计算机图形学的方法将它变为「可计算的」?习以为常的东西说不定也会触发灵感的开关,比如有天他突发奇想:人类的发声过程可不可以拆解,用计算机模拟出来?从胸腔到口腔到鼻腔,可不可以为声音产生和传播的过程建立一个可计算的模型?如今的计算机图形学早已不只与「图形」有关,它涉及整个虚拟环境的构建,比如在游戏里,除了有画面,还有声音,其中的画面和声音都属于周昆的研究范畴,背后的研究方法也都是相通的。

计算水转印这个题目源于他偶然看到的一个视频。视频介绍的是一个有几十年历史的传统工艺——水转印。他的方法论又登场了:能不能用计算机图形学改进这个传统工艺呢?

水转印目前广泛应用于汽车、家具,以及各类电子产品表面的着色环节。它的基本工序是:先将图案打印到一张高分子水转印膜上;然后将膜放到温水里,作为载体的高分子膜在水中溶解后,作为承载物的图案(颜料)会在水面形成一层黏稠的薄膜;最后将需要着色的物体浸入水里,图案便附着在物体表面了。这是一个利用物理和化学规律进行的巧妙设计,但它有个很大的缺陷:水转印的过程是手工操作完成的,它只在图案不需要与物体表面位置精确对应着色的情况下适用,如迷彩、大理石和木纹等图案。

周昆用半年时间实现了他的想法,发明了计算水转印技术。它的核心突破在于,通过设计算法,将设计师的三维设计图「降维」为打印机可以制作的二维「展开图」,并对水转印过程中水转印薄膜的形变进行物理建模,进而得到三维设计图与膜上的每一个点的映射关系,实现了「瞄准」,这样一来,手工操作的偏差就被避免了,因此计算机水转印又被称为「三维曲面精准着色技术」。

计算水转印技术发布后,它极具想象力的应用前景吸引了上百家企业,产业界希望周昆团队能继续研究和完善这项技术,让它真正实现产业化——周昆自己也很想做这件事,不过由于缺乏合适的团队,加之自己精力有限,这件事直到现在还被搁置着。

计算机水转印这个「小」技术,不仅震动了工业界,还清晰地提示出,计算机图形学不光关乎如何创建一个更逼真的数字世界,还涉及「逆反应」,即从数字世界回到现实世界,这里也有许多工作可以做。计算机图形学创建的虚拟世界除了可以直接观看和使用,还可以成为虚拟实验室,目前商场装修和自动驾驶已经在使用这项技术了。商场发生火灾如何疏散,自动驾驶的安全性如何,这些都很适合用仿真测试,而测试的准确性正与虚拟环境的逼真度有直接关系。「你创建了一个足够逼真的数字模型以后,就能够服务于真实场景的很多仿真。某种意义上来讲,它其实是站在更高层级上——你已经开始具备一个可以自己运作的世界,它可以帮助你(进行)很多的认知和决策。」周昆说。

在日复一日的工作中,周昆逐渐明确,计算机图形学研究者「就是在这两个世界之间」行走的人,他们一直不辍思考,两个世界之间该如何「互相转化,互相影响」?

「永生」

受限于计算能力,虚拟世界往往只是现实世界的一种近似。近似,意味着很多细节被忽略和舍弃了。从某个角度来说,计算机图形学的发展是一个将曾经被忽略和舍弃的细节重新加以考虑的过程。正是从这个角度来说,虚拟的世界会越来越「真实」,无论是视觉效果还是人在其中的体验。「虚拟现实」的英文词「virtual reality」中的virtual本意是「几乎像真的一样」。澳大利亚哲学家、认知科学家大卫·查默斯(David Chalmers)在他的《现实+:每个虚拟世界都是一个新的现实》中预测:「在一个世纪内,我们将创造出与真实世界难以区分的虚拟现实。」

目前,周昆及其团队的一个工作重点是「新一代三维数字化技术」的研究。所谓「新」,其实就是运用最新的技术成果,采用新的思路,让「人」「物」「景」的数字化更加逼真。就拿「物」来说,原先只考虑物体的几何形状,现在物体表面的「流光溢彩」也必须被考虑进来。

计算机图形学的研究成果以一种非常直观的形式体现在电影和游戏之中。在20世纪六七十年代,出现在电影中的动画真的只是一些可以动的画面,比如在1977年的《星球大战》中,反叛军训练用的3D动画只是一些由线条组成的(可以动的)示意图,与现实中的真实场景毫无关系。但到了30多年后,《阿凡达》中的一切都变得栩栩如生;《少年派的奇幻漂流》也是如此——你几乎很难想象里面让人恐惧的老虎、波澜壮阔的大海都是计算机图形学的产物,饰演主角派的苏拉·沙玛面前实际上只有一个21米长、7米宽、1.2米深的大水槽和只存在于想象中的老虎。游戏也是类似的,最初只有一些像《俄罗斯方块》这样的简单游戏——简单的图形,简单的移动方式,而如今,很多游戏的画面都像制作精良的高品质电影,「几乎像真的一样」。

图源电影《少年派的奇幻漂流》

增强现实也是周昆很感兴趣以及接下来想探索的一个方向。虚拟现实是在现实世界之外另造一个以假乱真的现实,而增强现实则是在现实世界之中「嵌入」虚拟的事物。这是从另一个方向模糊现实与虚拟之间的界限。

这在商业上会很实用,比如,在一个已经制作完成的真实拍摄的视频里,任意植入A品牌、B品牌、C品牌......的动画广告,这样一来,已经被电商网站广泛使用的「千人千面」将会出现在我们看到的视频里。从观众的角度看,「真」与「假」的界限消失了,看似真实拍摄的视频里面,混进了一些虚拟的画面,而我们毫无察觉。周昆预测,未来5~10年,这方面的技术可能会有一个突破性的进展。

在周昆看来,同样会在不远的将来有突破性进展的是数字化身。他觉得,也许5~10年后,每个人都有一个数字化身,就像互联网上每个人都有ID一样。它也许会成为新的个体记录的方式,就像全家福、个人写真甚至家谱曾经发挥的作用一样。

「我其实对『人』这件事情感兴趣的程度,要超过对『物』『景』感兴趣的程度。我觉得这可能是人性的追求,因为人总想追求永恒,这个是比较深层次的(话题)。」周昆说。从某种意义上讲,在未来,人类期待的「永生」也许会以数字化身的形式实现。目前,「数字永生」已经以一种尚显初级的方式进入少数人的现实生活。2020年,美国知名女星金·卡戴珊收到了一份特别的40岁生日礼物,她的丈夫找到一家视觉制作公司,花了一个多月的时间为她已故的父亲制作了一个「全息影像」。视频中,与父亲神似的数字人回忆了他们一起的时光,对卡戴珊说了一堆赞美和祝福的话,就像他仍然活着、在为她录生日祝福视频一般。卡戴珊和家人们「怀着深情看了一遍又一遍」。

只是,目前的数字化身还需要发展更多的「心智」(否则只是看起来像真人而已),以及更高的效率、更低的成本。前者是人工智能研究者的工作范畴,以ChatGPT为代表的语言大模型技术代表了当前的最新发展趋势。后者则是周昆的工作。他接下来正想在这一方面有所突破,他想让制作数字人这件如今成本高昂、耗时漫长的事情变成一个普通人可及的日常行为——「我在手机上拍一些照片,之后我就可以做一个非常逼真的数字人出来」。

无论是数字化身还是虚拟世界,本质都是人类为(某种程度上)突破现实限制所做的努力。纵观人类的历史,人类一直走在通往「虚拟」的路上,并且越走越远:从早期的小说、戏剧到19世纪末出现的电影,再到如今的互联网、游戏、虚拟现实,以及未来可能出现的全真互联网......即便是虚拟现实,这一想法也可以追溯到6个世纪前。1420年,一位意大利工程师就在他名为《战争器械之书》(Bellicorum instrumentorum liber)的书里描述了一种「可以将图像投射到房间墙壁上的魔灯」——「让人想起几个世纪后由伊利诺伊大学的卡洛琳娜·克鲁兹-涅拉等人开发的大型沉浸式系统CAVE」——那是一个人人都是「阿凡达」的世界。

这就是我们不可低估计算机图形学的原因,因为其中可能藏着人类未来的密码。不过——未来也许终将到来,但还不至于那么快(虚构大学生玛丽的三位法国科学家可能过于乐观了一些)。以真实世界为参照标准的话,目前的虚拟世界依然初级而简陋。周昆承认,虚拟世界做到可以与真实世界的体验和交互相媲美的程度,「非常困难」,有「很多的问题」尚待解决。但这也正是周昆和他的同行们的工作机会,他们正是解决问题的人。

杨国安对话周昆——未来的「人」,有自然人,有机器人,有数字人

杨国安 腾讯集团高级管理顾问、腾讯青腾教务长

周昆 浙江大学教授、「科学探索奖」获奖人

杨国安:从物理世界到数字世界这方面,你的主要研究方向是什么,在突破什么东西?

周昆:我要把真实世界做成一个数字模型,这里面会涉及两个问题:第一,是不是足够逼真,按我们的说法是,真实感到底怎么样?第二,你的整个算法或者你的软件的性能到底怎么样。真实感越强,计算越多、交互越多,所以真实感与性能是一对矛盾。如果我们不计代价和成本,这个事情可以做到什么程度呢?比如人的数字化,诸如好莱坞的工作室已经可以做得非常逼真了。英伟达的黄仁勋在2020年做过一个演讲,这个演讲实际上是把他家的厨房,甚至他本人全部数字化下来,现在这在技术上已经可以做到了,也就是逼真度现在可以做得很好了。(但)英伟达可能需要二三十个程序员花半年时间才能够把它做得那么好。我们想要把这件事情简单化,就是一个普通用户用手机拍一些照片,通过这些照片他就可以做一个非常逼真的数字人出来,这是我们想要突破的一件事情。这件事情,现在技术上还做不到。

杨国安:听起来你的努力方向——更加真实,算法更加高效,然后更自动化,更容易操作——普罗大众都可以受益,但是模型,普通大众应该搞不定吧,渲染也搞不定......

周昆:普通人不用去碰这个。过去计算机图形学最典型的应用,一个是游戏,一个是电影。但是针对游戏和电影,我们做出的这些工具和算法,其实都是给艺术家用的。而现在,从技术的观点来看,有点儿像腾讯之前提到的所谓「全真互联网」这个概念:从PC互联网,到移动互联网,再往后发展,如果我们认为「元宇宙」「全真互联网」是下一步的发展目标,那整个互联网的内容形式,会从过去的文本加图像,加视频,发展到加3D的内容。不是说3D内容一定把图像和视频给替代掉,它是一个「+」的关系,不同形式的内容之间会相互转化。为什么会相互转化?想想专业的美术人员对一个场景的创作,他们用工具很辛苦地做出来。但是我们人的想象力是非常丰富的,比如从前有座山,山上有座庙,庙里有两个和尚,山下有一条河......这样一描述,其实你脑子里已经有了画面。未来,我们希望普通人能够具备这样一个能力:只是去描述一些事情,然后动画就能将这些全部构建出来。这是一个大的发展趋势。

杨国安:每个人对山的样子、想法都会有不同。

周昆:虽然我们脑子里面都会出现一座山,但是每个人想象的山都不一样,那两个和尚,大家想的也不一样。不过我们觉得,从内容创作的角度来看,如果3D的内容是元宇宙的核心要素,那么一定要把工具和算法做到普通人就能够用的水平,这样才能创建出足够多的内容。我讲的3D是说它在计算里面有一个3D模型,但是最终呈现出来的,你看见的,还是视频。深度学习给这件事情带来的最大机会就是使得3D内容的创作,有可能做到互联网这种体量和规模,只有做到这样一个规模,才可能有足够多的内容。我们以前看电影,比如说皮克斯的电影,它质量很高。电影把科学和艺术结合到顶尖水平,但是它的成本太高、周期太长;还有一点,每个人看的电影都一样,它是没有个性化的。内容要到互联网规模和体量的话,一定要做到每个人都可以定制,像短视频,每个手机用户都可以随手拍。就像以前图像处理是有专业软件的,这个软件只能在PC端用,但后来处理图像的企业把给人拍照这件事情做到最傻瓜。之前,视频的各种专业后期处理编辑软件也只能在PC端用,甚至要功能很强的PC才能用得很好,但现在有了短视频剪辑软件,就把这件事情做到了足够简单,就可以让大家去创作很多内容。我们认为在3D的阶段也是一样的。

杨国安:你觉得技术上要多久才能够实现简单易行的3D创作?

周昆:我觉得这件事情至少还要5~10年,不过也看要做到多复杂。我们目前主要在单个的点突破,还没有把它们连成线和面。我们讲人、物、景,但最终还是需要把这些元素串起来,形成「故事」。就像好莱坞拍电影要有一个剧本,3D创作也是要想办法到达故事层面的。要做一个通用的东西是很难,但是一些特定的场景,比如虚拟直播带货,可能就比较好做,一个主播,一些商品,再加上背景、一些互动,这是比较好设计的。但是如果到达一个通用的层面,这个事情就会非常有挑战性。从我们的角度来讲,技术一定会往通用的方向发展,但我们不会等到10年之后,(等所有的环节都成熟了)才真正应用,我们会探索在中间的某一些应用场景下,这个(「点」上的)技术是不是能够真正用起来,所以我们会做一些两到三年之内马上就能应用的技术。

杨国安:通过一个简单的描述就能创作一个虚拟的视频,这也是在5~10年内能实现的吗?

周昆:对于这个事情,我没有那么乐观。简单地做总是可以做的,但是能做到大家的体验很好,有很多的创作者都愿意去用,我觉得这个可能没那么容易......这其实是现在非常热门的一个研究方向,叫AIGC,就是人工智能生成内容。现在AIGC做的就是,比如我描述「一个老人戴着一顶帽子」,敲这么几个字,它就可以生成一个图像,甚至很多图像,图像里面都是一个老人戴一顶帽子。但是到现在它也只是在图像的范畴,如果描述动态,比如说「这个人去喝水,站起身来走到门外,打开了灯」,你想要对此生成一段视频,现在它还做不了。三维的模型,三维的场景,三维的动画,那就更做不了了。

杨国安:从技术发展的角度,请你展望一下未来10年,虚实融合对我们的日常生活有什么样的改变。

周昆:从技术化角度来看,我还是对元宇宙、全真互联网这个概念——尽管是概念——充满了期待,因为我觉得这里面3D内容的渗透会越来越深入。我觉得未来——不见得是10年——每个人的数字化身,甚至会像我们现在的身份证系统一样。比如二三十年前,每到过年的时候,家里就要拍一个全家福,这实际上是对此刻的记忆;现在还有很多人会去拍写真集,或者婚纱照,其实都是要去纪念这件事情,是一种留影,把这件事记录下来。从我们做这个技术来看,数字化身是全息的记录,不只是一个状态的记录,而是可以互动的。打个比方来说,这个时候的「我」可以全部被数字化,这个「我」是可以跟未来的「我」进行互动的。我的小孩十二三岁了,其实他三四岁的样子,我的记忆已经很淡了,我们那个时候拍了很多照片、视频,但实际上很少有机会去翻,数据量太大了,但如果把那个时候的孩子全息记录下来,它能供我们之后随时翻看,还能跟我进行互动对话,这会是非常了不起的事情。

杨国安:数字人这块,将来(比如说5年后)技术比较成熟的话,大概是什么样的应用场景?

周昆:我觉得有很多,泛娱乐、泛社交都会有。数字人是三维的、全息的,如果做得好,可能会变成类似于身份认证系统。因为在数字世界里面,人总归是要有一个映射的,那么数字化身就是这个映射。除此之外,在未来的世界里面,我们觉得还会有很多不是对应到真实人的数字人。这些人可能就像现在的人工智能(产物),有点像助手,或者是虚拟人,可以干各种各样的工作,有各种各样的任务。未来的「人」,有自然人,有数字人,有机器人。

杨国安:你觉得哪些技术对人的生活是真正有帮助的?哪些是你期待度比较高的?

周昆:我对「人」感兴趣的程度,其实要超过对「物」「景」感兴趣的程度,我觉得这可能是人性的追求,因为人总想追求永恒,这个是比较深层次的话题。

杨国安:数字永生?

周昆:这个我感触会比较大。另外,如果要说对生活的影响,其实我对制造这块儿比较感兴趣。之前大家做了很多,都是在数字世界做,回到真实世界(的事情)会少一些,但是现在已经有了这个趋势,最终是要将数字世界和物理世界融合在一起的。融合的方式,数字化的也可以,但是如果通过一个物理的方式融合,落到一个实实在在的产品上,我自己会觉得成就感更强一些。