KIMI推出的数学推理模型k0-math,末于上线了,可以间接去到官网体验
正在 Kimi 网页版中,选择侧边栏的“眼镜”图标,便可运用基于 k0-math 模型的 Kimi 数学版,官方称后续会推脱手机版。
官方默示,数学公式引荐运用 LaTeX 格局,可以截图或拍照给 Kimi 常规版,让 Kimi 把图片转为 LaTeX 格局,而后复制题目问题给 Kimi 数学版便可。
正在两个难度更大的比赛级其它数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的暗示划分抵达了 o1-mini 最高效果的 90% 和 83%。
这么它的才华到底怎么呢?那里给了几多个问题测试一下它~
真测模型才华
测试一下难倒宽广中国网友的调休怎样调的问题。之前对于调休就上过热搜
由于之前国庆节和中秋是连着来,所以网友策画着怎样调休才算最劣解,那里的“上6休3上3休2上5休1上2休7再上5休1”其真便是指从中秋初步休假的缩写。
说人话便是,从中秋初步,先上6天班,再休假3天,再上3天班,再休假2天,而后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说真话,就算我原人打字也感觉那个假期太复纯了,几多乎像是念咒语一样
这时候中国网友就为了那个调休到底最后休了几多多天而计较起来
既然那么难,刚好可以丢给大模型停行问答,看看具备了数学推理才华的k0-math怎样计较那道数学难题。
一初步,KIMI舛错的计较出了须要算整个9月的假期。但是咱们题目问题是从9月9日初步的,所以其真只要10个周终是咱们副原休息的。
从头纠正后,讲述它只要10个周终,它末于答对了那道题目问题,答案是只多休了4天假期。
再来给他测试一下2024年的高考题看看成效怎样样:
编号为1,2,3,4,5,6的六个小球,不放回的抽三次,m默示前两次号码的均匀值,n默示前三次号码的均匀值,则m和n的差值不赶过0.5的概率是几多多一初步的解答历程根柢没有什么问题:它先界说了a,b,c三个做为前三次抽到的号码,而后可以获得 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,而后由于题目问题要求m和n两个数的差值不赶过0.5,因而可以获得|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以获得 |𝑎+𝑏−2𝑐|<=3
接着回覆中提到了须要思考c的与值领域,而后须要初步停行穷举法,来探讨c的与值满足|𝑎+𝑏−2𝑐|<=3 那个条件。
但正在接下来的穷举法中,就显现了很大的偏向,比如当c=6时,准确的答案应当时9≤a+b≤15,但是AI回覆却认为了3≤a+b≤9,所以之后的举例子就会蜕化了。
但是正在我从头让kimi模型考虑c=6的状况的时候,它竟然又考虑对了,正在c=6的时候,得出了2种状况那个准确答案。
但是很遗憾的是,其余c的与值也还是错的,招致最后得出了舛错的答案~
不过从上面可以看到,kimi的k0-math模型正在数学推理才华上还是很不错。同时只有你讲述它此中有一个轨范是舛错的,它就会主动原人更新。
这咱们再来看看o1大模型对那个题宗旨解答:o1模型和k0-math一样,正在前面两个轨范上都答对了,且能得出 |||𝑎+𝑏−2𝑐|<=3 那个答案了,但是和k0-math一样,正在穷举法的时候也计较舛错了,正在计较三个值满足条件的时候,获得的答案是54,取准确答案差了2个值。
简略的从从那个题目问题也能看出,两个模型成效都差不暂不多,都正在前置轨范上解答对了,但是正在穷举的时候比较数字大小蜕化。
从测试的整个历程当中,可以看到其数学才华曾经有了鲜亮提升。不像o1大模型输出思维链隐藏起来一样,k0-math反而愈加显性的输出原人的考虑思维链,那更能注明其具有折营的考虑赋性。
以前的大模型就像一个搜寻器,你问啥它就搜啥。但如今,不论是o1大模型还是Kimi,都正在勤勉让AI实正学会考虑。
好了,以上便是原期的所有内容了,我是leo,咱们下期再见~
来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:81 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10苹果推出iOS 18.2 Beta 1:Siri接入Chat...
浏览:20 时间:2025-02-09分布式AI应用的未来:Privasea引领DePIN AI算...
浏览:8 时间:2025-02-16AI赋能教育:AI人工智能在教育中的 8 个应用示例(老师必...
浏览:27 时间:2025-02-04西南证券维持圣邦股份买入评级:应用拓展,结构优化,模拟IC龙...
浏览:3 时间:2025-02-22