
(原标题:新V不雅国外:专科数学测试难倒AI模子)开yun体育网
陈沛/文 数月前,谷歌DeepMind晓谕旗下的数学AI器具AlphaGeometry 2和AlphaProof大致达到国际奥林匹克数学竞赛的银牌水平,让许多数学家驱动念念考AI何时会取代东谈主类数学家。
最近,前沿AI筹划机构Epoch AI发布高难度数学测试集FrontierMath,测试成果显现GPT、Claude、Gemini等主流AI模子系列的正确率仅有1%至2%,标明AI模子在专科数学范围仍有宽绰差距。
FrontierMath的数学专科难度饱和高
Epoch AI遥远力图于鼓吹AI时间领域的专科筹划。这次Epoch AI推出的数学测试集FrontierMath,则是由哈佛大学数学系博士Elliot Glazer牵头发起的名堂。
该名堂的筹划明确,即高唱全寰球数学专科东谈主士提交高质地的原创数学问题,由Epoch AI肃肃确保和考据问题的专科性和科学性,从而用来老师现时AI模子的数学推理和计较才能。
Epoch AI条目所提交的数学专科问题必须是从未在互联网上公开过的全新原创问题,且无法进行浅陋揣摸或立时修起,必须通过深度逻辑推理才能得到惟一的正确谜底,统统这个词推长入答过程至少要让数学专科东谈主士破耗几个小时甚而更长的时刻。
Epoch AI还联想了对应的奖励机制来引发数学家孝敬高质地问题。只有提交问题适应上述基本标准,提交者即可取得300好意思元奖励。若是问题具备饱和的原创性和专科难度,给提交者的奖励能增多到1000好意思元。若是是特别越过的数学问题,奖励金额甚而还会更高。
经过了问题搜集、考据、奖励、梳理等一系列名堂经过后,最终Epoch AI于近期发布了这一套极具挑战性的专科数学测试集FrontierMath。
从公布的部分样题来看,FrontierMath中包括了数论、素数域汇注推广、19阶多项式构建、矩阵计较、求解皆次方程非零解等专科数学问题。
Epoch AI及第了现时主流的AI模子进行测试。谷歌的Gemini-1.5-Pro模子和Anthropic的Claude-3.5-Sonnet模子的正确率分裂是2%,OpenAI的o1-preview、o1-mini、GPT-4o等模子的正确率均为1%,xAI的Grok-2-Beta模子的正确率是0%。
现时AI模子的数学才能有所夸大
AI在科学筹划中近来照实取得许多弘扬,但在数学才能方面还远未达到取代数学专科东谈主士的进程。
单从数月前谷歌DeepMind达到国际奥数银牌的情况来看,它的解题过程还会受到体式化说话调度、解题时刻过长等本色章程,根底不成平直用于确凿的专科数学测试中。
本色上,数学是一个对逻辑、推理和创造性条目极高的范围,它不仅波及多半的基础常识,还包含了复杂念念考、玄虚念念维和推理才能。
而这些才能关于现在的AI模子而言,仍是是难以跨越的鸿沟。
不外,固然FrontierMath测试集潜入揭示了现在AI模子在数学范围的不及,然而也会给AI筹划者提供明确的纠正标的。
由公共数学专科东谈主士联想出来的这些问题和对应的解题才略开yun体育网,最终也会成为下一代AI模子老师的数据养料,匡助催化AI时间的再一次飞跃。
Powered by 开云彩票官方网站 登录入口 @2013-2022 RSS地图 HTML地图