首页 人物 内文

当科幻电影中的浪漫成真

2023年11月20日 文/ 聪聪 编辑/ 桑柳

技术的革新看起来是瞬时的,实际上,这背后是个漫长的故事。

文|聪聪

编辑|桑柳

图|(除特殊标注外)视觉中国

成为贾维斯

《复仇者联盟》中有一个经典镜头,为了防止核弹在城市里爆炸,钢铁侠托尼扛着核弹冲向传送门外的太空。这是个巨大的冒险,很大可能有去无回,在接近生命的最后时刻,托尼的智能管家贾维斯提醒他,要不要给挚爱打个电话。

这通承载着人类终极情感的电话,显示了作为智能系统的贾维斯对托尼无微不至的了解和照顾。他熟悉托尼的喜好,给战甲搭配颜色时,自动填上了托尼喜欢的颜色;他知道托尼钯元素中毒,隔一段时间会提醒托尼喝菠菜汁。

这是存在于科幻电影中的浪漫。

图源电影《复仇者联盟》

诸多科研学者和工程师正在为此努力,将科幻电影中的场景一步步变为现实。普通人也开始有望拥有一个贾维斯一般聪明贴心的助理。

想象一下——

你要坐飞机去另一个城市,上飞机之前,它能帮你自动缓存好最近正在追的剧,预先告诉你到达城市的天气、新闻。意识到你进了一个陌生的地铁站,它会自动弹出当地的进站码。到异国他乡,会有个弹窗实时提醒着你这个国家的汇率。

它会像朋友一样能听懂你说的话,随口说一句,「手机屏幕怎么这么暗」,它就会自动变亮。它熟知你的喜好,能帮你写朋友圈的文案,大众点评的评论,甚至可以帮你写个演讲稿。你还能跟它倾诉生活的苦恼,让它给你一些建议。

如果你在打游戏,它还能通过你的触控判断游戏是不是到了激烈的鏖战阶段,再调度起整个系统的资源,提供更稳定的帧率和更高画质。你不用再费心清理内存,它知道哪些是你需要的,哪些是不需要的,自动帮你清理……

它是个智能助手,开始有着「人」的细腻和用心。在OPPO ColorOS发布的第十年,这些功能在一部小小的手机上正在逐步实现。

这背后,是十年的积累,也是一个革命性大模型的诞生。2022年11月,ChatGPT发布,人类惊讶地发现,畅想多年的人工智能在此刻涌现出了接近人的心智。研究操作系统多年的李治军第一时间注意到了ChatGPT对计算的影响,当他看到ChatGPT可以准确理解「生成一首李白风格的描述天安门的古诗」这样的复杂命令,并且能够生成得那么准确的时候,他知道,这意味着机器可以理解人的复杂想法,可以有结构有逻辑地生成人真正想要的东西,这「真的太厉害了」。

国家人才计划获得者作为顾问担任OPPO潘塔纳尔首席科学家,李治军立刻想到,这或许可以应用在手机等智能设备的操作系统中。「操作系统一个重要核心就是理解人的意图」,有了这样的模型,操作系统就能更准确地理解和满足人的要求。

杨振宇经历过短暂地怀疑,「一个新技术还在实验室环境,可能会有一些比较惊艳的表现,但能不能这么快进入商业化生产里?」他是OPPO安第斯大模型首席架构师,犹豫没有持续太久,他很快明白,人工智能在这样一个大模型的革新下,「在语言理解的处理上是无边界的」,这意味着,任何一个开放的问题,它都能够懂你的意思。

人工智能带来的革新对智能操作系统的流畅性也带来了新的可能。洪汉生作为OPPO首席软件技术规划专家,过去十年的时间都在研究手机系统的优化,大模型的革新让手机统的优化再一次进入新的阶段,而流畅性做为系统万物互融时代的基石,如何攻克算力的瓶颈、保证运行效率,成为他未来技术攻克的核心。

如果说我们对智能手机的最终愿景是贾维斯,当下的进步已经开始步入第一阶段,2023年11月,OPPO ColorOS 14发布,上述这些试图把大模型装进手机的科研学者们,交出了自己的答卷。

图源电影《复仇者联盟》

野心家们

技术的革新看起来是瞬时的,实际上,这背后是个漫长的故事。这些年来,手机行业的技术大框架一直没有变,技术和体验的突破,其实是一个个细节突破带来的积淀。

或许要从2008年讲起,这一年李治军开始了他的操作系统研究与教育工作。彼时,Android作为手机操作系统刚刚诞生一年,苹果手机操作系统也有了自己的名字,而国内还没有真正属于自己的操作系统。

李治军从硕士阶段就开始研究操作系统,多年的工作经验让他意识到「操作系统会越来越重要」。怀着一种巨大的内心期盼,他果断投身到了这个领域,在一片几乎空白的市场中探索。

2014年之前,洪汉生还在过着一种安逸的生活。朝九晚五,「福利高,工资高,又不累」。这或许令很多人羡慕,「钱多事少」,但却不是洪汉生想要的。

他有野心,期待一种更热血的人生。他这样形容自己爱折腾的性格,「别人 9 点钟下班,那我就要 10 点钟下班,别人一周干五天,我干 6 天」。《人物》和洪汉生的采访时间安排在晚上九点,电话接通,那头的洪汉生讲起话来依然亢奋,他说,「后半场才刚刚开始」。

所以他不愿接受一种「波澜不惊」的生活,一眼望到二十年后的日子。2014年,他辞掉了自己稳定的工作,甘愿做一滴水,重新投入到科技的蓝海里。他选择了去研究手机操作系统,那几年,中国手机厂商带动的全球移动终端的技术升级,让他感到兴奋,他相信这其中大有可为。

几乎同一时间,杨振宇离开了执教五年的大学,投入工业界。2015年是机器开始学会自主学习的一年,不再过度依赖少量人工标注的数据样本和专业算法工程师的经验,而是可以从海量的数据中总结出更普适的规律。这样的市场变化让杨振宇兴奋,他不想再停留于论文和枯燥的科研里去想象未来的世界,他希望能真正研发出一些产品,切实地改变人类的生活。

他怀着一种愿望,选择去做语音对话系统。他看到,如果智能系统能无限理解人类的语言,能够实现有效的对话,一些工作比如客服,效率会大大提高,节省下来的人力就能投入到更有创造性的工作里,「这是价值挺大的一件事」。

他们怀着远大的理想,纷纷扎根在各自选中的领域。但科技的创新不是靠热血和野心就能完成的,这需要一些运气,以及助力。

2018年,杨振宇看到了对话机器人新一代的技术变革,核心算法从传统的规则引擎和统计机器学习向更强大的深度学习演进,可以从海量的数据中总结出更普适的规律,获得更精准的效果体验。这是一个激动人心的变化,但杨振宇当时在一家创业公司,用户规模小,无法获得足够的反馈数据来推进算法的迭代。

他为此苦恼。一个偶然的机会,他看到OPPO正在启动一个项目,做一款搭载在自家智能终端上的语音助手。OPPO作为全球智能手机的头部公司,有上亿的用户,意味着有足够的用户数据反哺到算法的训练中。这让杨振宇看到了机会,这一年,他加入了OPPO。

也是同一年,李治军观察到行业开始进入一个爆发期,国产操作系统试图摆脱国外技术的限制,真正实现自主可控。他想要有一番作为,却遇到了现实的困境。钱从哪来?他的研究领域包括超系统,超系统是一个由多个系统集成的大型系统,对它的研究、实验是一件烧钱的事,「太底层」,很难一下就看到收益,很少有人愿意为此花大力气投入。

但OPPO成为了他的助力。2019年底,OPPO宣布未来三年投入500亿用于创新和研发。李治军和OPPO的技术专家结识并交流了数次,每次的交流都让他感觉到「非常有意思」。大家的理念是不约而同的,「我们都想设计一个面向未来的新的操作系统」,2021年,他以潘塔纳尔首席科学家的身份,和OPPO展开了合作。

OPPO也让洪汉生看到了一个崭新的前景。2018、2019年正是4G到5G的转折,短视频、大型手游对手机流畅性提出了新的要求,「是一个数量级的提升」。但手机系统并没有跟上时代的速度,虽然各家厂商的发布会依然将「跑分」作为亮点,但洪汉生看到,具体的应用依然面临卡顿的难题,用户还是会吐槽,因为行业都「忽视了一些基础设施的建设。」

他曾经随机分别问了一些安卓和苹果的用户对两个操作系统的比较,到最后,用户总会讲同一句话,「苹果总是那么流畅」。「『总是』这两个字是很致命的两个字」,洪汉生觉得扎眼。

他想深入研究这个问题,「不然你始终拿不到真正的解决方案」。2019年,他和OPPO的负责人聊过这些,发现大家有一样的期望,去解决这个计算机全行业的难题。他决定加入OPPO。

来自不同领域的人怀着同样的热望,汇聚到了一起。一幅崭新的图景在他们面前展开。

面对瓶颈

洪汉生加入OPPO之后的一年,2020年初,OPPO发布了一项叫 UI First的核心技术,卡顿问题得到了显著的提升。

这项技术解决了前后台资源优先级的调度问题,简单来说,就是将前台的应用设置为最高优先级,以免后台运行的软件过度消耗系统的性能。

有「电竞第一人」之称的前世界冠军李晓峰,当年受邀参加OPPO的展会,现场打了几把王者荣耀,基于UI First带来的游戏流畅性的提升,让他频频称赞。

但洪汉生却并不甘于此,他总是在关注更细节的地方。虽然很多工程师都开始用这种方式改善偶现的卡顿,可他敏锐地发现,问题还是没有得到根本性的解决,有时候优先级的调度甚至会进一步损耗手机的性能,得到相反的结果。

流畅性是细节的比拼。哪怕手机大多数时候都是流畅的,只要有一次在点击图标时发生了卡顿,用户就会深刻地记住这个细节,构成他对手机整体的印象。

「你只有踏踏实实一点一点地做细节,把每个细节都做好,慢慢积累下来,你的用户才能感受到整个系统的提升。」洪汉生说。他一直记得学生时代管理课上老师经常说的一句话,「卓越的敌人是优秀」。「如果你只满足于优秀,你永远无法做到卓越」。他很快投入到新的解决方案的探索中。

创新的工作就是这样,总有更微小的细节,也总会遇到新的瓶颈。杨振宇对此也深有体会。

2018年,加入OPPO以后,带领团队很快发布了智能语音对话系统小布助手。以前输入一个指令,比如「不要打开蓝牙」,语音助手只能提取关键词,「打开」和「蓝牙」,就执行了操作,「不要」被忽视了。

加入深度学习的能力之后,它能够更准确地理解这句话的含义,承载更自由的表达。

但杨振宇依然觉得不够,还有很多的细节没有被解决。比如在语义理解方面,说「打开热点」语音助手能够理解,但是说「帮我分享网络给别人」,它就理解不了;再比如在多轮对话的场景,上一句说「打开热点」,下一句说「关上吧」,它可能就不知道什么意思了。杨振宇和团队一起想了一些办法,但效果依然有限。他还是会看到有用户吐槽语音助手「很笨」,「人工智障」。

这几乎是全行业共同遇到的难题,「行业标杆像苹果的Siri、亚马逊的Alexa,也没有做得特别令人满意」。

杨振宇一度感受到,行业的人在面对这个问题时都有点迷茫和信心不足,甚至听到一些风向,「说这个方向一时半会还突破不了,应该减少一些投入」。但他知道,科研就是这样,如果想取得超越性的突破,就是需要巨大的耐心,和不计代价的投入。哪怕暂时看不到结果。

虽然身处学界,以科研学者的身份投入到OPPO 自研智慧跨端系统潘塔纳尔的研究中,但李治军同样在关注用户体验中的细节,关注系统到底如何更精确地理解人,更有效地发挥作用。

这背后是大模型的发展,更关键的在于系统对用户的体察到底能抵达怎样的精度。比如他发现虽然OPPO的手机摄影已经发展到光学变焦,但要不是他的孩子提醒,他之前根本不知道也不懂这个功能。

他发现,机器对人意图的理解很重要,通过什么样的方式执行,抵达用户同样重要。「既然操作系统是面向未来的,那交互方式一定是新的」。

但作为学者,他还想不到这种「新」会以什么方式诞生。过去的方式用户不买账。对他来说,这些需要沉下心研究。遇到瓶颈,对科研工作者来说几乎是一种常态。

火花

为了解决瓶颈,这些科学家和工程师们想了很多办法。

2020年,洪汉生带领团队决定向外看,他花了两三年的时间去和高校合作,频繁地参加学术界的论坛。这些专家思维活跃,总是能给他带来新的启发。

一个典型的例子就是人因研究,这是在一个智能操作系统的论坛上洪汉生偶然听来的概念。人因工程学是一个学科,专门研究人和机器、环境的交互,以使机器或系统更能适应人生理和心理的特点。

「这是一个很有趣的题目」。洪汉生回来后测试了几代苹果手机,他发现,苹果的硬件无论怎么提升,一个指标的启动响应时间始终控制在135毫秒左右,拖动的响应则控制在 20 毫秒。他拿着这个数据去和高校的老师沟通才明白,原来人眼能感知到的时间变化在100-150毫秒以上,少于100 毫秒,人是察觉不到差异的。

这就提醒他,不需要在响应速度上做更多无谓的追求,这是一种性能的浪费。虽然这是很小的事,但洪汉生非常重视。他很快找到了中科院心理研究所的杜峰教授,和他的团队达成了合作,由他们进行人因的研究,而OPPO的工程师团队将这些心理学的研究成果加入到系统的升级中,以达到用户最觉舒适的体验,哪怕只是一毫秒的距离。

产学研的结合帮洪汉生找到了很多新的突破。但这是一件投入很大的事,要不断试错,不断去验证学术界的方案。这中间要面临彼此的局限。

洪汉生听到过一些质疑,花两三年的时间去研究一个很小、很偶现的事,到底值不值得。但他坚信,「这些小事是很值得投资的」。流畅性最终比拼的一定是细节。

学界的杨振宇更自然地意识到产学研结合的重要性和优势。在大模型之前,小布助手就有自己的学术顾问委员会。大模型本身对技术前瞻性的要求就高,2020年,他又找到了清华大学研究语音对话系统多年的黄民烈教授,研究如何让指令变得更有质量,让小布助手学到复杂的意图理解能力。

在此之前,黄民烈的团队已经有一定积累,搭建出来了一个数据集,让机器能够捕捉人类的情绪。对一个智能对话系统来说,这是重要的,意味着你的手机能够觉知到你的情绪,并以此帮助你,提供情绪价值。他们也在智能对话系统的安全性上获得一些成果,避免「有害、有毒,有偏见的内容」抵达用户。

这些合作带来了巨大的效率提升。

虽然杨振宇感受到学术界和工业界都有一些各自的局限,学术界的解决方案一般难以直接工程化落地,让工业界去像学术界一样做原创前沿算法研究也会比较痛苦,但他也明显感觉到,在发展比较快的领域,「这两方面的局限在缩小」。这验证着OPPO在产学研一体化上的投入是值得的。

而和OPPO合作后,担任外部科研学者的李治军也在产学研的合作中不断突破和改变着自己,他的思路也被逐渐打开了。

他研究意图理解与程序合成,但每次的解决方案放在手机中的效果并不好。这总是促使他反过来思考,「意图理解到底应该怎么做?」

在和OPPO合作之前,每年学术界关于机器对人的感知的主题有几千篇论文,精细到检测人的心跳能做出心电图来。但和OPPO合作之后,他才意识到,很多方案「实际上不行」。有太多条件的限制,比如手机必须垂直放置,周围必须没有噪音,一些功能才能实现。对手机的日常用户来说,这是很难实现的。

这让他感到惋惜,学术和生产的分离,「浪费了太多聪明的大脑」。

真正实现产学研互相助力并不是一件容易事,过去一年,为了潘塔纳尔架构和设计,李治军和OPPO技术专家展开了三百多次技术讨论,技术创新前瞻性和产业落地可行性在讨论中不断清晰、不断演进。把智能系统推到下一个阶段是李治军最大的梦想,对于产学研领域的差异,他反复琢磨、不断反省,和大家一起寻找出一条技术与产品结合的道路。技术是抽象的概念,产品是实实在在的东西。为了推进,李治军试着学习产品的思维,把技术具像化地讲出来。

李治军相信那句话,科学家要「把论文写在祖国大地上」,而这必须要产学的深度融合与碰撞之下,才能达成。

产学研的连接正在越来越紧密地发生,科研学者和工程师们共同投入进来,彼此刺激,彼此促进,去解决行业面对的真问题。

做一件小事

得益于多年的积累,2022年底,基于GPT-3.5技术的发布,科研学者们发现,他们正在研究的事有了新的可能。

大模型带来的革命性改变,让机器逐渐接近人,拥有人类的逻辑与情感。几乎是第一时间,李治军就意识到这将给整个行业带来革新。

他很快作出反应,把人工智能用在操作系统上。不到一年的时间,他参与研发的OPPO智能系统已经能在一百多个场景中高效帮助人解决问题。除了坐飞机时主动弹出在哪个登机口,行李在哪儿,它还能学习了解你吃饭的口味,是喜欢粤菜还是川菜,帮你推荐餐厅。它甚至熟悉你的阅读习惯,知道早晨起来要跟你播报哪些新闻。

虽然一开始杨振宇对未来的技术革新有所怀疑,但他也很快反应过来,「智能处理这个行业要被革命了。」他怀着一股迫切,迅速地组建团队,「再不加点紧,我们的智能助理跟别人比起来会显得特别笨」。

起初,他担心同事们会不会对这件事的信心不足,但团队真的组建起来,他发现同事们比他想象的更热情、兴奋。大家频繁地组织讨论,甚至取了个名字,「作战部」,专门申请了一个办公室,在技术的革命中,大家都有一股冲劲,畅想着科幻电影中的世界可以逐步实现。

其实,小布助手很早就实现了语义理解,但受技术限制,总是在细节的处理上还不够周到。基于人工智能的安第斯大模型的诞生,很快让小布助手得到了新一轮的升级,开始学会理解人类复杂的语义与情绪,细节的突破,让用户普遍觉得,小布变聪明了。

在人工智能技术加入进来之后,洪汉生负责的系统流畅性领域也进入了新的阶段,不仅为安第斯大模型和潘塔纳尔系统的升级铺路,也在细节上为用户带来更智能的体验,比如它会开始理解你的习惯,你在看动画时,是喜欢更细腻的画面,还是希望帧率可以更快一些,它都会知道并帮你做到。

大事的背后一定是小事的积累,洪汉生想起了他和MTK(联发科技)、高通这些全世界最前沿的企业合作建立实验室时,发现了一个现象:很多技术专家都是50岁。社会上热议的35岁焦虑在这些人身上并不存在,他们在各自的领域,都已经有超过25年的经验。

是这些科学大家在小事上日积月累,才最终改变着世界和人类。

在黄民烈眼里,小事,或者说科研本身,总是「枯燥的,寂寞的」,杨振宇也看到,正常一个技术升级带来的改变总是微小的,改善的幅度只有3%、4%,但就是这些长期的、日拱一卒的付出,才让他们最终在新一轮技术升级中实现远大的理想。

在李治军眼里,这是一个科研学者能够有所成就的关键。「没有一件大事不是停留在小事上,操作系统绝对是一件大事,几百万行代码,上亿行代码,但实际上我们要分解到一个函数、一个算法可能就几百行代码,甚至几十行代码。」他说,一个科研学者的必备素质,就是「脚踏实地做好每一件小事」。这些小事最终成就了让他体验到成就感的瞬间——看到自己的想法在上亿台设备上部署应用,切实地改变了人们的生活。

ColorOS 发布已经十周年,这也是国产手机行业蜕变的十年。在这十年间,行业中的每个品牌、每个人都在向下扎根,潜心打磨「最后一公里」,让技术的革新真正触达每一个用户。智慧、流畅等体验升级的背后,看似是瞬间的技术突破,实则是漫长的积累与沉淀,更离不开「从小事做起」的精神支撑——正是这种精神,让行业中的每个人怀着高远的目标,同时践行着脚踏实地的作风,步履不停地向前,才有了今天国产手机的百花齐放。

正如李治军老师所说:「希望将论文写在祖国大地上」,每位科研学者与工程师对微小事情的专注与坚持,学界与产界的互联与融合,最终凝聚成一股中国知识力量,推动科技不断创新、自强。