AI与人类一起“打工”，靠谱么？

2022年7月21日文/ 魏侨编辑/ 太子

随着技术的更新迭代，数字人进入3.0时代，拥有更加高精的模型，并且能通过人工智能的驱动，提供专业的、个性化的服务。如今的虚拟人也能够渗透到更丰富的场景中，为观众和消费者带来新的内容和体验。《博客天下》采访了百度智能云数字人相关负责人，深入了解当前数字人的发展情况，探讨百度智能云为数字人行业带来的改变。

出品 | 博客天下品牌观察组

作者｜魏侨

编辑 | 潘冬妮

“还有什么是AI干不了的？”

7月21日，2022百度世界大会上，AI数字人希加加与撒贝宁搭档主持，今晚还要与《沉香如屑》主演成毅跨时空连线对话，AI数字人度晓晓和龚俊数字人秒懂小撒粤语点咖啡需求……似乎正如世界大会喊出的口号所言，人均一个数字人的时代已经到来。

2022百度世界大会直播截图

这已经不是数字人第一次进入大众的视线了，6月19日，北京国际电影节宣布虚拟偶像“梅涩甜”担任本届电影节元宇宙推介官，消息一经发布，就在社交网络上引发了热烈讨论。

网友们争执的焦点大多集中在，海报中梅涩甜的外形与其所代表的“未来感”相去甚远。大众注意力仍然聚焦在其外貌特征上，认为“没有必要用一个审美落后的虚拟形象”来作为宣传噱头。

今年5月虚拟偶像团体A-SOUL的珈乐终止活动，揭开了虚拟主播由“中之人”扮演的幕后规则，不禁令人深思——虚拟偶像的“虚拟”是否只是一层皇帝的新衣？

随着数字人科技的发展，事实上，并非所有的数字人都需要真人扮演。同样在5月，国际博物馆日当天，百度智能云曦灵提供独家技术支持，与中国文物交流中心、极幕科技共同打造的首个文博界虚拟宣推官“文夭夭”正式发布。

无独有偶，6月百度APP推出的虚拟AI助手度晓晓风头正劲，先是40秒创作40篇高考作文，并获得48分的高分，又用几十秒创作了4幅画，亮相西安美术学院毕业展，还与百度App代言人龚俊的数字人一起发布了新歌《每分每秒每天》。

《每分每秒每天》歌曲宣传海报

显然，有前沿的AI技术作为保障，百度智能云在数字人的生产开发、创作运营上都取得了飞跃式的突破。据悉，文夭夭、度晓晓、希加加，他们之所以能够拥有流畅的“听说读写”等AI能力，均依托于百度智能云去年发布的数字人平台“百度智能云曦灵”。

从虚拟女团A-SOUL、阿里虚拟偶像AYAYI、抖音虚拟达人柳夜熙，到央视网数字虚拟小编小C、湖南卫视虚拟主持人小漾等等，大众往往只闻其名，并不了解他们是如何产生、如何活动的。

日前，《博客天下》走进百度，与百度服务型数字人产品业务负责人侯浩进行了交流，深入了解当前数字人的发展情况，探讨百度智能云为数字人行业带来的改变。

创造00后数字人

2022年的国际博物馆日（5月18日），由百度智能云提供独家技术支持，联合中国文物交流中心、极幕科技精心打造的国内首个文博虚拟宣推官“文夭夭”正式亮相。

这个画着唐代花钿妆容、梳着双髻丸子头、身着一席淡雅长裙、行走在数字化博物馆中的少女，不仅亲和灵动，还通晓古今。未来在博物馆、考古现场、文物修复现场等等，是否也能看到夭夭灵动的身影，充满了想象与期待。

首位文博虚拟宣推官文夭夭

“文夭夭是持证上岗的。”在接受《博客天下》专访时，侯浩说道。

作为文博界的首位虚拟宣推官，文夭夭跳脱了常见的“赛博朋克风”或“盛世美颜系”，以00后大学生结合国风造型的亲民形象，树立了独树一帜的IP标签。

文夭夭的双丸子头源自古代少女发型，同时在发型后部增加了现代编发；妆容融入唐代盛行的花钿装饰，彩色眼线、粉嫩皮肤，整体呈现出少女的清新可爱，更符合现代审美；服装细节运用了盘扣立领的古典元素，颜色清新淡雅，材质上则营造出流光溢彩、富有未来感的效果；腰间配饰的造型源自唐代葡萄花鸟纹银香囊，象征着她文博宣推官的身份。

值得一提的是，扇子的元素在文夭夭的形象设计中贯穿始终。

扇子不仅是她拿在手中的重要配饰，如果仔细分辨服装细节，还能发现上衣遍布扇子形状的图腾暗纹。领口的盘扣用两个扇子拼接，形成一个领口的装饰品；耳坠结合了扇子的百褶以及花朵的曲线；腰间的腰带装饰也融入了扇子设计。

首位文博虚拟宣推官文夭夭

“文夭夭裙子、袖口的百褶，都取自折扇的轮廓，做得很细致，体现出科技与文化的交融。”侯浩告诉《博客天下》。

从古至今，中国的扇文化底蕴深厚，历来有“制扇王国”之称，扇子是贯穿中国历史的标志性文物。在外交场合，扇子常常被作为国礼相赠，文夭夭也将带着象征礼仪之邦的文化符号，跟随国家级的展览赴海外出访交流，传播中国文化。

另一方面，“扇”是“善”的谐音，也寓意着文夭夭的善良单纯，“手执一扇，求的是自我本心，念念向善。”

据侯浩介绍，“数字人的生产过程，先进行原画设计，包括人像、衣服、发型、妆容，以及脸部特征等，然后做模型绑定，类似给木偶穿线，形成骨骼，最后在平台上完成配置和渲染，一个数字人便生产出来。”

侯浩口中的“平台”，就是“百度智能云曦灵”平台，作为一个可以全链路生产数字人的平台，百度智能云曦灵最大程度地简化了数字人的设计难度，降低了数字人的创作门槛。

后台运营图

生成数字人形象后，平台内置表情库、动作库。这背后是大量的动作捕捉与数据收集，经过长期的综合分析，形成自然、接近真实的表情和动作。例如当工作人员输入一段文字，辅以与内容相应的表情动作，一段简单的数字人播报视频就生成了。除了AI自主驱动之外，百度智能云曦灵平台也支持真人动作捕捉以及面部捕捉。

在百度智能云曦灵平台上，一张照片或者一段视频就可以制作一段数字人视频。用户照片上传之后，平台对照片进行解析，摘取特征元素之后建模和重组，形成数字人模型的底版。相比市场上良莠不齐的换脸、建模软件，百度智能云曦灵平台有更高的精确度和流畅度。

跨模态的情感交互

相比线下人工讲解员，文博数字人可跨越时空限制，以多个“数字人分身”服务数十上百家博物馆。

再者，运用数字人的优势在于，省去了长年累月学习积累知识的过程，未来打造文博行业的数字人只要接入知识库，并不断升级，各件文物的历史、艺术、科学价值都能如数家珍，上下五千年浩如烟海的历史都将信手拈来。

在录入必备的文博知识之外，同时也有大量开放性知识，共同生成数字人的知识储备，兼具专业性与多元性。开放性知识基于百亿级训练参数的开放域对话模型PLATO-XL，参数达到了 110 亿，被认为是当前最大规模的中英文对话生成模型。

在用户与数字人的交流过程中，可以最大程度地模拟真实的对话交流。同时随着模型的更新迭代，数字人也可以持续学习，在与用户的交流过程中不断调整、完善自身，刷新开放域对话效果。

数字人愿景图

当用户通过语言进行交流时，既输出有效的内容信息，也表达个人情绪。而想要实现情感层面的交互，就必须对用户的情绪进行精准的识别、解析，并输出相应的反馈。

值得一提的是，目前百度的语音交互引擎拥有世界首个在线语音交互注意力模型，能实现与数字人自然畅通交流，高准确度的音画同步，逐字口型准确率达到了98.5%以上。

要实现完整的情绪识别与交互，需要同时对语音、表情、动作进行转化和识别。一般来说，输入语音返回的就是语音，输入图像返回就是图像。但在实际的交互中，用户可能输入语音、文字，或者通过摄像头输入图像。不同类型的信息要求数字人都能处理，同时以不同的形式输出反馈，这个能力被称之为跨模态。

例如央视新闻的AI手语主播，除了拥有高精度的3D仿真形象之外，也具备极高的专业度。从北京冬奥会上岗开始，既能完成专业的体育赛事解说，也能跟上朱广权的花式押韵。

在AI手语主播进行手语直播时，需要现将输入的语音转化为文本，在理解语义的基础上“翻译”为手语语序，进行相应的映射，最后通过动作、口型输出。这个过程已经完成了一次跨模态的转化输出。

AI手语主播+朱广权

百度智能云在今年上半年已经发布了AI手语平台，为了动作的准确性，工作人员精修了11000个手语动作，同时为了保持手语的连贯，每一个动作中间都需要通过融合算法连接。平台也可以根据需求接入不同的知识库，例如播报冬奥就接入了体育赛事类的知识库。

在AI手语平台上，只要通过语音输入就能直接生成手语视频。如果将AI手语平台搭载在硬件上，就可以形成手语一体机，广泛运用在法庭、银行等等场景，更好地服务于听障人员。

百度的底层的AI技术优势支持着百度智能云曦灵，使得平台上针对不同形式的内容都具备相应的AI能力，才能最终实现数字人真正的跨模态交互。

“最先感知数字人的就是其外在特征，对于好的数字人的理解就是长得好看、高精度。发展到现在，还要看它的内涵，它的感知和认知能力，与用户的交互体验怎么样，有没有持续学习、更新迭代的能力等等……这些是数字人实现差异化，能够脱颖而出的关键。”侯浩对《博客天下》说。

AI技术注入灵魂

迎着风口，市面上以“数字人”为噱头的产品层出不穷，然而，什么才是真正意义上的数字人？

洛天依入驻上海杜莎夫人蜡像馆

纵观数字人的发展历史，到如今经历了三个阶段。第一代数字人是如初音未来、洛天依等依靠用户创作内容的虚拟歌手。“初音未来之父”伊藤博之曾表示，设计初音未来这个形象最初的目的，是为了推广雅马哈旗下的人声音乐软件，即后来被广泛应用到虚拟歌手音乐创作的VOCALOID。

精心设计的形象、声优配音并经过处理的声音组成了第一代数字人的雏形，生产内容主要依靠UGC，数字人只提供外观形象，几乎没有自主行为，依靠人为设计来完成行为动作。

动作捕捉、实时渲染等技术飞速发展之后，出现了如绊爱、A-SOUL这样以直播互动、舞台表演等方式活动的虚拟主播。动捕技术解决了数字人的驱动问题，让数字人可以完成自主行为与即时互动。

但第二代数字人仍然不具备独立的行为能力和思想能力。由真人扮演数字人，包含着另一重隐忧。一旦扮演者发生状况，数字人也会受到直接影响，此前绊爱的永久性休眠，以及A-SOUL成员嘉然的退出，都为行业敲响了警钟。

当数字人的行为、能力等都与扮演者高度绑定，数字人的行动也受到限制，很难实现跨时空的活动。这个阶段数字人实现的还是那种一对多的交互，形象千人一面，还没有实现一对一，定制化的交互。

由于其交互能力的限制以及文化渊源，前两代数字人大多为表演型的虚拟偶像，受众主要来自泛二次元用户，形象也以更具二次元动漫特征的2D形象为主。

百度数字人

如今数字人发展到第三代，模型更加的高精，不仅在视频、直播中出现，还可以搭载在不同的智能硬件上。依托成熟的AI技术，数字人具有自主思考、反馈、行为、互动的能力，也就是说，真正为数字人注入了“灵魂”。在“表演”之外，数字人也具备了更丰富的能力和活动的空间。

这一代数字人，除了接近真人的外观之外，还需要具备接近于人的行为特征和思想特征，因此“人格化”成为第三代数字人的关键词。

“如果没有人格，数字人就是面无表情的一张画，和动画、视频区别不大，很难和用户产生连接。想要让数字人和用户的互动体验变得更好，那么数字人也要微笑，要有自己的人设，这个形象背后需要鲜明的人物特征来支撑。”

对真人来说，人格是自然流露的行为倾向，而在数字人身上则需要进行细致的塑造模拟。例如，文夭夭的性格被设定为温柔亲和，因此微笑是她最常露出的表情，少有大开大合的动作，言行轻巧灵动，观之可亲。

在以往的数字人生产过程中，往往需要复杂的预先设计才能完成人格的模拟，而百度智能云曦灵平台已经接入了庞大的模型库，包括数字人的动作、笑容、表情、语言等等，每一种能力背后都存在着对应模型库，具备相对完善的输出标准。

当用户输入到需要的性格特质，平台就会输出相应的表情、动作、行为方式。只有足够丰富的模型库，才能实现精准的匹配，实现无缝联动。以及，数字人的打造还需要语音、语义、视觉、大模型等全链路的AI能力来支持。

度晓晓高考作文海报

今年高考作文题目披露之后，百度数字人度晓晓在直播中根据新高考一卷作文题目，以围棋术语《本手、妙手、俗手》命题，迅速做出了一篇标题为《苦练本手，方能妙手随成》的高考作文。

文章不仅主题明确、逻辑清晰、论证清楚，还大量运用修辞，旁征博引，文采斐然。在直播间中，语文名师申怡给这篇满分60分的作文打了48分。

显然，度晓晓的文字能力已经摆脱了机械性的拼凑，远远超过大众以往对于AI自动写作的想象。

运用AI技术，通过数据训练让数字人做诗、绘画，直接完成内容创作已经不再是难事。数字人的创作方式也从以往的UGC、PGC过度到AIGC，内容创作、IP孵化模式也进入了新的阶段。