世界速读：AI做题家卷疯了！高数考试正确率81% 竞赛题成绩超过计算机博士_亚洲科技网

高数考不好，不知道是多少人的噩梦。

如果说你高数考得还不如AI好，是不是就更难以接受了？

没错，来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%，妥妥的MIT本科生水平。

【资料图】

课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

“仅”得81分，对AI的期待也太高了吧

现在，谷歌那边又传来了最新大消息：

不止数学，我们的AI甚至在整个理工科上，都已经拿到最高分啦！

看来在培养“AI做题家”这件事上，科技巨头们已经卷出了新高度。

谷歌这个最新AI做题家，参加了四门考试。

数学竞赛考试MATH，以往只有三届IMO金牌得主才拿过90分，普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们，以前最好成绩只有6.9分……

但这一次，谷歌新AI却刷到了50分，比计算机博士还高。

综合考试MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

这一次，谷歌AI“满血版”，也都拿到了做题家中的最高分，直接将分数拉高了20分左右。

小学数学题GSM8k，直接将成绩拉升到78分，相比之下GPT-3还没及格（仅55分）。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新AI也能在200多道题中，答出将近三分之一。

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，谷歌AI这一次，走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

值得一提的是，论文一作Lewkowycz还分享了一个论文中没写到的亮点：

我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

看到这里，有的家长已经坐不住了。

如果告诉我女儿这件事，我怕她用AI做作业。但如果不告诉她，就没有让她对未来做好准备！

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

那么，这是怎么做到的？

AI狂读arXiv上200万篇论文

新模型Minerva，基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题，再靠写代码来解决。

而Minerva则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练，新增的数据集有三部分：

主要有arXiv上收集的200万篇学术论文，60GB带LaTeX公式的网页，以及一小部分在PaLM训练阶段就用到过的文本。

通常的NLP数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了Emc2。

但谷歌这次把公式都保留，和纯文本一样走一遍Transformer的训练程序，让AI像理解语言一样去理解符号。

与之前的语言模型相比，这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比，Minerva的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

缺点，是可能出现AI用错误的步骤得到正确答案的情况。

优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

到了AI的推理阶段，Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示，今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法，让AI把分步计算的中间结果临时存储起来。

最后还有Majority Voting多数表决方法，也是今年3月才发表的。

让AI多次回答同一个题目，选择答案中出现频率最高的。

所有这些技巧全用上以后，5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva，在竞赛级数学题和MIT公开课问题中，也能达到GPT-3最新更新的davinci-002版本水平。

说了这么多，Minerva具体都能做出哪些题目？

对此谷歌也开放出了样例集，一起来看一下。

数理化生全能，连机器学习都会

数学上，Minerva可以像人类一样按步骤计算数值，而不是直接暴力求解。

对于应用题，可以自己列出方程式并做简化。

甚至还可以推导证明。

物理上，Minerva可以求中性氮基态（Z = 7）电子的总自旋量子数这样的大学水平题目。

生物和化学上，Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响？

以下哪种是放射性元素？

以及天文学：为什么地球拥有很强的磁场？

在机器学习方面，它通过解释“分布外样本检测”的具体含义，从而正确了给出这个名词的另一种说法。

……

不过，Minerva有时也会犯一些低级错误，比如把等式两边的√给消了。

除此之外，Minerva会出现的推理过程错误但结果对的“假阳性”情况，比如下面这种，有8%的可能性。

经过分析之后，团队发现主要的错误形式来自计算错误和推理错误，只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决，但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看，Minerva的表现让很多人感到惊艳，纷纷在评论区求API（可惜谷歌目前并没有公开计划）。

有的网友想到，加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法，它的准确率或许还可以再提高？

不过作者的回应是，哄一哄方法属于零样本学习，再强恐怕也比不上带4个例子的少样本学习。

还有网友提出，既然它可以做题，那么能不能反过来出题？

事实上用AI给大学生出题这件事，MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起，找学生来做问卷调查，大家也很难分清一道题是不是AI出的。

总之现在的情况，除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

老师们也盼着有一天能用AI出卷子。

推荐内容

世界速读：AI做题家卷疯了！高数考试正确率81% 竞赛题成绩超过计算机博士

2022-07-05
天天微动态丨中国汽车出口逼近世界第一新能源汽车销量超200万辆

2022-07-04
环球精选！丰田酷路泽皮卡效果图曝光：像是没满月的老头乐

2022-07-04
【新视野】特斯拉为何无法在印度享受特殊待遇？打车巨头这么说

2022-07-04
【热闻】周冠宇遭撞击翻车本人晒照被围观：揭秘F1保护有多牛？

2022-07-04
观察：吉利旗下沃尔沃欧洲新建第三座纯电车型工厂年产能25万辆

2022-07-04
环球通讯！特斯拉编织补能网络产业链或迎增量空间

2022-07-04
热点！维珍轨道在首次夜间任务中成功发射卫星

2022-07-04
当前通讯！NASA：这月亮上的土，也是你想卖就能卖的？

2022-07-04
新动态：NASA计划于8月23 日至9月6日发射Artemis 1号：开启“重返月球”之旅

2022-07-04
热推荐：特斯拉车主惊魂体验自动驾驶新系统：识别是有轨电车依然往上撞

2022-07-03
天天热议:特斯拉第二季度交付量超25.4万 6月刷新单月产量新纪录

2022-07-03
当前滚动:“加密货币女王”遭FBI悬赏通缉在中国涉案150余亿

2022-07-03
当前关注：炒币榨干了韩国年轻人

2022-07-03
每日快播：小鹏回应P7出事故安全气囊未弹出：撞击力度未达弹出要求

2022-07-03
全球热门:智商税？日本方形西瓜750元1个，甜度不高，味道寡淡

2022-07-03
每日热议!为了吃上一口披萨，他发了一篇流体物理论文

2022-07-03
全球视点！“中国天眼”发现疑似地外文明信号，“三体人”真的存在吗？

2022-07-02
全球时讯：联合国：已绘制出23.4%的地球海底地图目标2030年全部绘制

2022-07-02
焦点讯息：《侏罗纪世界3》《史前星球》热映！真实的恐龙世界什么样？

2022-07-02
全球今热点：《柳叶刀》：过胖或过瘦更易患新冠重症疫苗对肥胖者效果略佳

2022-07-02
全球滚动:AI做题家卷疯了：高数考试正确率81% 竞赛题成绩超过计算机博士

2022-07-02
环球微动态丨研究人员开发出可以主动杀灭病毒的改进型N95口罩

2022-07-02
当前滚动:中国将通过核动力海王星轨道飞行器探索外太阳系

2022-07-02
世界快讯:全球变暖何解？麻省理工团队激进设想：为地球造“太空气泡”防护罩

2022-07-02
世界看热讯：苹果Carplay新功能曝光分析师：忘记苹果汽车吧

2022-07-01
天天观速讯丨特斯拉创纪录的交付量将走到尽头？马斯克曾称赞中国人的勤奋

2022-07-01
世界消息！1小时学会走路 10分钟学会翻身世界模型让机器人迅速掌握多项技能

2022-07-01
世界视点！你的血管正在悄悄长斑变硬！这样做，“斑块”可能缩小甚至消失

2022-07-01
环球讯息：与男友分手后一女子难过得真"心碎"了！不开玩笑

2022-07-01
天天速讯：女子被蛇咬后模仿影视剧用嘴吸毒结果…

2022-07-01
全球热文：美国顶级专家福奇服用辉瑞新冠口服药后复阳：症状更糟糕

2022-07-01
全球通讯！10亿仅够哪吒汽车“烧”4个月，巨亏击退投资方耐心？

2022-06-30
前沿资讯!周鸿祎刚“上车”就喊“退票”

2022-06-30
今热点：李想：只要一两年 BBA主力中大型SUV将跌破50万

2022-06-30
观点：大众汽车计划将充电子公司出售给西门子

2022-06-30
环球热头条丨蔚来被灰熊咬了一口但是不疼

2022-06-30
热点！4款巧克力口味雪糕“刺客”，谁最能打？丨凰家评测

2022-06-30
全球速递！英媒：NASA阻止拍卖月壤和食用月壤的死蟑螂

2022-06-30
天天讯息：吃西瓜千万别用勺！这个坏处，吃了很多年瓜才知道

2022-06-30
环球信息:神十三航天员回家后首次公开亮相王亚平：有一种穿越的感觉

2022-06-29
观焦点：有点怪！日本研发冷冻垃圾桶：除了装垃圾还能冻饮料

2022-06-29
天天热点！3姐妹不抽烟接连被查出肺癌，防癌体检该怎么选择？

2022-06-29
当前焦点!飞机用上“地沟油” 中国首次搞定规模化工业试产生物航煤

2022-06-29
最新资讯：借“擎天柱”一双“慧眼”机器视觉方兴未艾，哪些公司有望受惠？

2022-06-29
当前滚动:NASA载人登月计划启动发射首枚小型航天器探路

2022-06-29
速读：宁德时代与比亚迪共同加持，德方纳米的最强竞争对手要来了？

2022-06-28
【天天新要闻】新能源系统需要充分挖掘电动汽车储能潜力

2022-06-28
全球看热讯：腾讯的“阳谋”暴露了

2022-06-28
天天日报丨《柳叶刀·传染病》：新冠疫苗一年挽救近2000万人生命

2022-06-28
在我国内蒙古宁城县发现1.25亿年前“宁城中华草”
土星和木星携手月球，将于4月7日上演一出“双星伴月”好戏
我国车联网产业发展进入快车道，智能网联汽车数量快速增加
腾讯与奥迪宣布达成战略合作，“微信车载版”上线
“智慧大脑”一体化智能化大数据平台，为未来社区发展注入新动力
自动行驶机器人“RakuRo”亮相！全方位麦克和3D传感器加持
半导体厂商一季度业绩向好，国产替代进程加速
据预测：2025年，全球卫星网络接入设备将达2亿台套
我国海上风电总装机容量仅次于英国，位居第二
里程碑式突破！揭示高能宇宙线起源之谜
青海省开启“集控站+无人值守”运维新模式提高设备运行水平
安徽首个量子计算芯片联合实验室成立打造具有全球影响力的“量子中心”
航天科工新一代通信技术研究院落户重庆聚焦“制造+研发”深度融合
我国活体组织成像技术干细胞研究应用领域达世界先领先水平
加快推进“双千兆”网络建设，聚焦网络质量提升
英国Arm推出新一代芯片架构Arm v9：性能提升将超过30%
2021世界智能驾驶挑战赛，将于5月21日至23日在天津东丽湖举办
ASO-S“探日”有望于2022年发射升空！探索太阳磁场
超高速互联网将普及计算助力缩小数字鸿沟
1至2月，我国规模以上互联网企业完成业务收入同比增长达29%
数字化转型找准“方向感”，打造国内商业数字化发展高地
加快5G网络规模化部署，打造数字经济新优势
探索5G行业融合应用 5G专网将进一步推动融合应用发展
中国移动香港5G商用一周年开拓5G商业场景应用
早期宇宙爆发“照亮”神秘黑洞或解释对于其他黑洞族演化的影响
7709米！哈工程“悟空”号创中国AUV潜深新纪录
人工智能领域新算法发布数据传输更高效精准
科技创新技术加持，我国船舶制造已达到世界前列
我国5G网络要坚持适度超前原则，探索5G应用发展
我国汽车自动变速器技术创新按下“快进键” 加速行业转型升级
AMR智能物流机器人，推动汽车行业智慧物流应用和发展
小米11 Pro/Ultra支持67W无线闪充如何实现更高效的充电?
我国可再生能源技术装备水平大幅提升，开发利用规模稳居世界第一
吉利帝豪S正式开启预售 8.67万元-11.07万元
科技助力智能生活垃圾分类投放点全新亮相
“越野之王”15592牛·米是飞度的100倍纯电悍马SUV正式发布
《仙剑奇侠传》1、2、3登陆Steam：512MB内存可玩售价没有公布
第一门户搜索网站雅虎旗下知名问答平台“雅虎问答”将于5月4日关闭
乐视贾跃亭回国有望？FF已提交上市文件
国内首个“5G+北斗”高速公路智能护栏预警系统上线
LG宣布退出智能手机业务绝唱旗舰V70现身运行Android 11系统
新一轮科技革命和产业变革持续演进，提高制造业生产效率
“能联全球”平台正式发布，推动全球能源电力发展合作
网曝拯救者电竞手机2 Pro真机谍照：采用RGB呼吸灯
雷军开启个人第三场直播：小米进军智能电动汽车行业
700MHz 5G网络共建共享落地实施！着重建设5G“黄金频段”
2021年底，5G网络基本实现县级以上区域、部分重点乡镇覆盖
腾讯视频VIP官方正式宣布进行涨价国内头部视频平台将逐步提价
苹果文档曝光：新一代Apple TV将发布配置大幅升级
智能机器人完成多项智能巡视任务，作业效率提高三倍
科技加持，长循环寿命的碳基锂离子电容器问世
在5G技术普及和共享市场日趋成熟下，共享充电宝集体涨价
苹果或将研发自动驾驶汽车平台，助力行业发展
人脸识别技术发展尚存三大隐忧，行业监管有待加强
郭守敬望远镜发布最新数据集 2022年光谱数量有望突破2000万
新技术助力机器人通过“透视墙壁”找到目标
在线办公平台用户规模增长迅猛新型“无纸化”工作方式成为热潮
科技加持，无人机阵列海水取样项目通过验收鉴定
数据转储作业整体时间缩短98% 建议运营商尽快出台指导标准
南京智能网联汽车先导区建设启动发布南京制造业2.0版新政策
一键接入贵州信息通信业全力推进适老化服务
信创产业正在迎来发展黄金期统信软件加快与主流芯片厂商合作
打破“只租不卖”的共享出行模式哈啰推自研智能两轮电动车
由于芯片短缺现代已经暂停IONIQ 5等电动车生产
滴滴货运将在北京等11座城市上线，具备录音桔视等安全功能
小米宣布将于明天举行小米影像品鉴会聊聊小米影像
腾讯控股日内成交额突破1300亿港元，港股下跌 0.79%
大众将为MEB平台加载V2G技术稳定可再生能源的波动供应
三星Galaxy Quantum 2首批谍照曝光黑色和白色
B站否认商谈收购游族网络 24% 股权及总部大楼游族网络直线拉升
消息称苹果因供应紧缺推迟MacBook和 iPad 生产苹果拒绝置评
小米电视及Redmi电视部分产品型号宣布涨价新机价格平均上涨 5-10%
微软宣布将于4月21日正式展示DirectX 12新功能与SDK
App Annie最新报告：全球用户在线视频应用使用时长近1万亿小时
小米 11 Ultra于4月8日海外开售，售价 5999 元起
联想拯救者电竞手机2 Pro正式预热拥有更出色的散热设计
苹果公司近日又遭集体诉讼 App 已构成非法赌博罪
LGD OLED官方电视面板已经获得 “防止炫光的显示产品”国际验证
微软Surface Laptop 4页面泄露将有英特尔和 AMD 两个版本
外星人推出M15 R5游戏本内含外星人高端外设
E Ink推出Spectra 3100电子纸扩大电子价签与零售广告牌应用
微信iOS版8.0.4正式版正式发布表情包上限提升到了 999 个
抖音内测 “发现”页大改，拥有播放器、音乐推荐等功能
蔚来汽车创始人李斌：目前每月7500台产能也存在压力
暴雪《暗黑破坏神 2 重制版》将开启限时技术测试持续到 4 月 12 日
魅族官方消息：魅族18的新用户中，45%来自苹果iPhone用户
消息称一加9R预计将在近期推出：一加国内的第二款中端机
realme GT Neo0点开启首销：顶配版2299元
小米11 Ultra明日海外开售：与国内6999元售价相近
realme真我GT Neo明日开售：搭载天玑 1200 处理器
2021中国（北京）国际游乐设施设备博览会在京开幕深圳市维亚环球科技有限公司受邀参加，并取得圆满成功
深入实施制造强国战略以四个方向加强制造业发展
有颌类动物的演化“谜团” 硕果仅存的有颌鱼类化石
数年攻克难题新科技“飞秒激光” 改变传统化学杀毒的新技术
我国神州十二号载人飞船成功发射中国人首次进入自己的空间站
我国研发人员总量连续多年居世界首位科技领军人才从哪里来？
如何打造一部更好的车？需要高性能计算平台支撑
重大科技电子枪顺利完成安装工程建设正式进入设备安装阶段
智能化极地科考船“雪龙2”号首次执行环南极考察任务
小米推出自动驾驶职位互联网造车话题再起