首页 AI财经社 内文

AI战胜了围棋,但却输给了高考

2017年6月7日 文/ 林木木 编辑/ 金赫

两台高考机器人,AI-MATHS和Aidam,6名历年的高考状元,挑战了2017年的高考数学题。尽管柯洁败给阿尔法狗,但在高考这件事情上,高考状元仍是不可战胜的。

6月7日下午5时,全国高考数学科目的结束铃声响起。另一边,两个特殊的高考生正准备“展开”试卷。

成都的一个会议室里,准星云学研发的高考机器人AI-MATHS在媒体见证下,2小时内解答多套2017高考数学题;数千里外的北京,学霸君研发的另一个机器人Aidam将与四位高考状元同台对战。

2017年的高考,是两家科技公司要征服的目标。在高考的考场上,这场AI与人的角逐6年前就开始了。最终,高考状元取得了胜利。

下面是高考机器人的编年史。

2011—2012

2012年6月的某一天,在投资公司工作的张凯磊坐在办公室里,收到一封在Google任职的同学发来的群邮件,邮件内容是一篇尚未发表的论文,揭示了这一轮人工智能学习的大浪潮。

这篇论文将在发表后引起巨大反响,很快,全世界都将知道Google在秘密实验室Xlab做出了关于“猫脸识别”的惊人研究。

“教学会因此迎来彻底变革。”张凯磊说,他受到强烈的震撼。张凯磊是南开大学数学系出身,曾在大二辍学创办过一家教育培训机构,因此这成了第一个跳入他脑中的想法。

10月,张凯磊果断辞掉投资公司的工作,邀请陈锐峰博士加入,开始筹备创业。一年后,主打“拍照搜题”的学霸君面世,它将为日后的高考机器人Aidam提供大量的题库储备。

这个时期的中国高考机器人,正在襁褓中孕育着能量。

高考机器人开端于2011年。来自日本国立情报学研究所(NII)的新井纪子教授领头发起了“东大机器人计划”(TodaiRobotProject)。她召集了超过100名人工智能领域的专家组成专项团队,目标是让机器人Torobo能在2021年前通过东京大学的入学考试。

这一年,另一个中国人林辉,在无数次碰壁后,找到了清华大学苏研院。那时人工智能的概念尚未在国内苏醒,这个领域的创业公司寥寥,很多投资人不理解这个概念,“聊项目之前得先给他们科普”。

清华大学苏研院大数据中心的成立,加速了研发进程。林辉担任数据中心主任,到2014年,大数据中心旗下的智慧教育事业部将被分出来成立为准星云学科技有限公司,林辉任CEO,并在不久后承担起开发高考机器人AI-MATHS的责任。

2015.7

四年后,2015年7月21日。合肥一间会议室里,数十位专家领导围坐在一张棕色的圆桌旁,圆桌中间摆着一大簇鲜花,每个人身边都放着一个白色茶杯,头顶上拉着一条红底黄字的大横幅。在这个极其传统的会议场景中,正讨论着十分前沿的主题。

国家“十二五”863计划信息技术领域“基于大数据的类人智能关键技术与系统”项目启动会暨研讨会。

会议探讨并启动了国家863类人智能项目,这个项目的主要任务,就是在3-5年时间内研制出能够参加高考并考取大学的智能机器人。

这个节点标志着中国第一个高考机器人的诞生。

项目由科大讯飞牵头,联合了包括清华大学在内的30家院校和单位。当天,首创了高考机器人的日本教授新井纪子也出现在会议席上。

时间回溯到5月的某一天,正在NII工作的新井纪子收到一封来自中国的邮件,这封邮件由科大讯飞发出,意欲与NII共同开发考试机器人。邮件提到,中国将推出一个国家级项目来开发考试机器人,前三年的预算大概是30亿日元,“中国为此付出了巨大的努力”,新井纪子在收到邮件后很感慨,他们在“东大机器人计划”上的花费大概为每年数百万日元。

日本国立情报学研究所(NII)教授新井纪子。

她很快同意了这项合作,并在7月到访中国。

林辉的公司在人工智能领域的长期研究这时候起了作用。立项后,准星公司一举中标了高考机器人的数学应考项目,成为数学组别的组长单位。当时,人工智能识别、大数据处理等难关已经被准星攻破。

除了数学,这款机器人还包括另外两个独立的人工智能程序,分别应考语文和文综。研发团队立下目标,要在两年后,2017年的6月,让它在封闭环境中、断网情况下与全国文科高考生一起考试,目标是考上一本。

这并不是一个容易实现的目标。当时,已经研究了四年的Torobo还无法达到日本入学考试分数线。上线两年的学霸君的技术能力只能使系统在数学考试中得到30分。消息一出,有网友评论下四个字:“坐等打脸。”

2015.11

“参加大学入学考试对人工智能来说是一个很好的目标。”新井纪子说。

高考机器人在这一年的11月迎来突破性进展。

从2013年开始,Torobo每年都会参加日本大学入选考试,2015年的11月,它在考试中取得了511分的成绩,总分950分,平均分数416分。这意味着,它可以进入全日本441家私立大学和33所全国性大学就读,排名在全国前20%,其中数学排名前1%。

这是Torobo迄今为止取得的最佳成绩。但它仍然未能考入东京大学。并最终放弃了这一目标。

当月,中国代表团到日本进行交流访问,见证了这一关键时刻。

与随后出现的中国机器人的虚拟系统不同,Torobo拥有一个真实的身体。它是白色的,有两条可以灵巧活动的机械臂,左手捏着固定爪,右手握着圆珠笔。它在真正的试卷上进行答题。

Torobo在真正的试卷上进行答题。

确切说,高考是比围棋更难的实验。阿法狗可以战胜九段世界级高手,虽然计算量巨大,但围棋的规则相对简单,而高考对机器人来说,其泛化知识库里的规则,远比围棋的黑白、点位置和吃子规则复杂得多,它要求机器有感知分析、认知联想和推理验证的能力。

2016.3

“请拍板。”陈锐锋博士在电话里对张凯磊说。

2016年3月20号,张凯磊正在美国出差,晚上11点,夜色已经笼罩住整座城市,张凯磊回到酒店准备休息。这时,他接到了首席科学家陈锐锋打来的电话,对方告诉他说,最近两个礼拜,机器学习突然取得实质性突破,智能机器人项目可以开始做了。

很长一段时间,他们在机器学习上的进展极其缓慢。从2012年10月创业以来,学霸君的工程师做过许多努力,三年时间只把分数从0分提高到40分左右,其中从0分到30分大概用了6个月,之后两年多的时间基本在原地踏步,无法取得突破,很多做这个项目的人最终都选择了离开。

但这一次,陈锐锋告诉张凯磊,新一批庞大的数据喂进去之后,突然发现增速变快,两周内分数增加了2到3分,这在之前是从未发生过的。在排除了误差之后,工程师们认定,新的方法被证实有效,虽然风险仍旧存在,但这个项目有了可预见的实现可能性。

那一夜,张凯磊激动到失眠,他一直清醒地思考到凌晨五点:“一定要做,这是核心突破口。”他随后拨通了打往公司的电话。

这个电话持续了四个多小时,他在美国的这一头拿着电话,让那一头的陈锐锋召集来所有研发人员,近十个研发人员挤在一个办公室里,对着一部电话,挨个回答张凯磊提出的问题。全部问完以后,他命令下面的工程师出去,只留下核心工程师金霄然和陈锐锋,接着给几个副总裁打了电话,最后,他说:“定了,招人吧。”

挂了电话,美国清晨的阳光已经照进窗户,北京已经进入黑夜,张凯磊站起身,走出了房间。

2017.2

Aidam的加入,是个历史性的时刻。他们拥有了紧随国家“超脑计划”之后的全国第二部高考机器人,并间接地向AI-MATHS,林辉团队的作品提出挑战。

谈到和林辉的关系,张凯磊对AI财经社说:“我们是朋友,经常交流。”但他不愿意对对方的产品下论断。

2月23日,是林辉的数学高考机器人AI-MATHS的成果展示时间。这是一次测试。

这一天,林辉带着他的系统来到成都石室天府中学,将于高三文科班的43名学生进行一场“人机大战”。这是AI-MATHS首次与学生对决。

机器人AI-MATHS败给成都石室天府中学高三学生,仅得93分。

气氛很紧张。高三数学老师拿着一个黄色密封袋,严肃地走进高三5班和6班的教室,密封袋里装着即将测试的数学试卷,老师站在讲台上,举起密封袋,展示其完好无损,接着解开密封袋的绳索,抽出一叠试卷。学生们端坐在下面,望着他,激动中带着忐忑。

旁边的办公室里,一个隔间的工位上放着两台未联网的台式电脑,穿黑色外套的技术人员将一个磁盘插入主机,随后坐在电脑面前,开始快速地点击鼠标,电脑屏幕上出现一行行密密麻麻的数字。

试卷被一张张依次发到学生桌上,同时被一道题一道题输入电脑,答题开始了,接下来两个小时是紧张的等待。

林辉不知道结果会如何,他感慨了一句:“想给系统烧上几炷香。”高三学生佘雨佳觉得自己肯定要输给人工智能了,她略显悲壮地说:“感觉我们是为人类的荣誉而战”。

答题结束,电脑连上打印机,打印出纸质版的试卷答案,老师收上学生试卷,当场批改了这44份试卷。

事实证明,这一战,人类赢了。高考机器人的试卷审批完毕,老师在分数栏写下了数字“93”,而43名学生的平均成绩在计算器上的显示结果是“106”。

高考机器人AI-MATHS的服务器。

结果在林辉的预料之中。当时的AI-MATHS每天要吃10套题,运算量可达2的800次方。截止这次测试,机器仅有100套试题的训练量。“它不是题库,而是理解答题的逻辑。”这是林辉对数学机器人的解释。

他给AI-MATHS定下目标:6月7号上重本分数线。

2017.3

另一边,张凯磊的电脑突然跳出一个测试结果。公司的几十台服务器承载着机器人的系统,每天自动训练着40-50万道的题目,不间断地输出测试结果。这一天,测试分数突然比往常多了几十分之多。

他立马拨通研究人员的电话,对方告诉他,几何难题终于攻破了,Aidam又迎来一次质的飞跃。

张凯磊曾一度觉得,自己研发的机器人Aidam无法参加高考了。

3月之前,他们一直无法攻克这个难题——如何将几何语言转换为机器能理解的语言。

他在上海组建了一个专攻几何的团队,8个人,包括老师和技术人员,每天坐在办公室里思考、运算,就这样过了一整年,一无所获。

几何问题解决不了,挑战高考试题就是无稽之谈,张凯磊焦虑地在办公室走来走去,突然灵机一动,想到一个无策之策。他召集几何团队的人员,命令说,从今年往后,老师来学写代码,工程师学备课。

前期并无效果,经过几个月的积累,3月的某一天,就像突然开窍了一样,这个难题就这么消失了,张凯磊把这归功于工程师与老师长期融合的结果。

以“拍照搜题”起家的学霸君,4年来累积了超过7000万道数学题目的题库系统,加上学生大量手写和上传的题目,以及教辅书籍中的题目,共同构成Aidam的训练数据库。

AI-MATHS的读题设备。

阶段性成果取得,张凯磊也定下目标——6月7日Aidam将在媒体见证下挑战高考数学题,与数名高考状元同台对战。

但与AI-MATHS不同,Aidam是需要联网的。这意味着两者有不同的逻辑。

2017.6.7

6月7日,高考日,决战的日子到来了。下午5点过后,两场比拼分别在成都和北京的高考机器人间上演。

“105分。”主持人说出AI-MATHS的数学高考成绩。

AI-MATHS机器人的“身体”并非模仿人类的样子,而是10余台服务器组成的像冰箱一样的柜子。它被放在会议室旁边的休息室里,孤零零地站在房间中央,被一条白线与外界隔开。

这张高考试卷,花费了AI-MATHS22分钟。

与此同时,另一个高考机器人Aidam也在北京的一间会议室里快速地运算着,它这次的任务是与6名来自不同省份的高考状元对决。

一个小时后,数学老师拿来了Aidam的成绩,舞台大屏幕显示出Aidam的答题卡,老师一个题一个题地报了机器人的得分。每一次念到满分的题目,下面的观众都爆发出热烈的掌声。

“机器人得分134分。”主持人最终报出数字,接着补充道:“6位高考状元平均分,135分。”

1分之差,曾经输给阿法狗的人类,这次在高考面前,打败了AI。

Aidam与高考状元成绩对比,人类平均分以一分之差胜出。

这是一次阶段性的胜利,这似乎能够表明,尽管机器能够实现大量的运算,但面对“理解”这个难题,至少在很长一段时间里,它是只属于人类的专利。

除了人类与AI的成绩差,可以看到,Aidam的成绩要明显高于AI-MATHS。

AI-MATHS的研发牵头人林辉在演讲中对此做出解释。“联网联库相当于开卷考试的环境,但我们是闭卷。”他傲慢地说。

他显然是暗指机器人Aidam。

张凯磊对此未做解释。AI财经社问张凯磊,怎么看林辉的AI-MATHS。他只回答了一句:“我跟林辉是朋友,经常交流。”

结尾

中国高考已经进行到第四十年,每年诞生数百万考生,很多人事后回忆起来,觉得当年没日没夜做题的自己与机器人无异,多年过后,高考也会在命运的不可掌控中消逝它的意义。

那么,为什么我们还要耗费如此多的人力物力财力,造出一个机器人来,迎合我们所谓的“应试教育”?

学霸君CEO张凯磊的回答是,如果机器人能够挑战高考,有理由相信机器人可以辅道学生,在自动解题、自动批改与个性化作业上帮助学生,这对中国教育来说具有革命性意义。

AI-MATHS的负责人林辉觉得,技术要应用在教育评测上,保证教师、学生、家长的“三减负一增效”。

新井纪子教授则没有那么乐观了。高考机器人的研究让她重新审视已有的教育方式。“如果AI在那方面能够做得更好,那说明,我们需要新型的教育。”她忧心忡忡地说。