出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

实测一下Kimi版“o1”推理模型k0-math

2025-02-19

KIMI推出的数学推理模型k0-math,末于上线了,可以间接去到官网体验

图片

正在 Kimi 网页版中,选择侧边栏的“眼镜”图标,便可运用基于 k0-math 模型的 Kimi 数学版,官方称后续会推脱手机版。


官方默示,数学公式引荐运用 LaTeX 格局,可以截图或拍照给 Kimi 常规版,让 Kimi 把图片转为 LaTeX 格局,而后复制题目问题给 Kimi 数学版便可。


正在两个难度更大的比赛级其它数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的暗示划分抵达了 o1-mini 最高效果的 90% 和 83%。

图片


这么它的才华到底怎么呢?那里给了几多个问题测试一下它~


真测模型才华

测试一下难倒宽广中国网友的调休怎样调的问题。之前对于调休就上过热搜

图片


由于之前国庆节和中秋是连着来,所以网友策画着怎样调休才算最劣解,那里的“上6休3上3休2上5休1上2休7再上5休1”其真便是指从中秋初步休假的缩写。

图片


说人话便是,从中秋初步,先上6天班,再休假3天,再上3天班,再休假2天,而后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说真话,就算我原人打字也感觉那个假期太复纯了,几多乎像是念咒语一样

图片


这时候中国网友就为了那个调休到底最后休了几多多天而计较起来

图片


既然那么难,刚好可以丢给大模型停行问答,看看具备了数学推理才华的k0-math怎样计较那道数学难题。

图片


一初步,KIMI舛错的计较出了须要算整个9月的假期。但是咱们题目问题是从9月9日初步的,所以其真只要10个周终是咱们副原休息的。

图片


从头纠正后,讲述它只要10个周终,它末于答对了那道题目问题,答案是只多休了4天假期。

图片


再来给他测试一下2024年的高考题看看成效怎样样:

编号为1,2,3,4,5,6的六个小球,不放回的抽三次,m默示前两次号码的均匀值,n默示前三次号码的均匀值,则m和n的差值不赶过0.5的概率是几多多


一初步的解答历程根柢没有什么问题:它先界说了a,b,c三个做为前三次抽到的号码,而后可以获得 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,而后由于题目问题要求m和n两个数的差值不赶过0.5,因而可以获得|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以获得 |𝑎+𝑏−2𝑐|<=3

图片


接着回覆中提到了须要思考c的与值领域,而后须要初步停行穷举法,来探讨c的与值满足|𝑎+𝑏−2𝑐|<=3 那个条件。

图片


但正在接下来的穷举法中,就显现了很大的偏向,比如当c=6时,准确的答案应当时9≤a+b≤15,但是AI回覆却认为了3≤a+b≤9,所以之后的举例子就会蜕化了。

图片


但是正在我从头让kimi模型考虑c=6的状况的时候,它竟然又考虑对了,正在c=6的时候,得出了2种状况那个准确答案。

图片


但是很遗憾的是,其余c的与值也还是错的,招致最后得出了舛错的答案~

图片


不过从上面可以看到,kimi的k0-math模型正在数学推理才华上还是很不错。同时只有你讲述它此中有一个轨范是舛错的,它就会主动原人更新。


这咱们再来看看o1大模型对那个题宗旨解答:o1模型和k0-math一样,正在前面两个轨范上都答对了,且能得出 |||𝑎+𝑏−2𝑐|<=3 那个答案了,但是和k0-math一样,正在穷举法的时候也计较舛错了,正在计较三个值满足条件的时候,获得的答案是54,取准确答案差了2个值。

图片


简略的从从那个题目问题也能看出,两个模型成效都差不暂不多,都正在前置轨范上解答对了,但是正在穷举的时候比较数字大小蜕化。


从测试的整个历程当中,可以看到其数学才华曾经有了鲜亮提升。不像o1大模型输出思维链隐藏起来一样,k0-math反而愈加显性的输出原人的考虑思维链,那更能注明其具有折营的考虑赋性。


以前的大模型就像一个搜寻器,你问啥它就搜啥。但如今,不论是o1大模型还是Kimi,都正在勤勉让AI实正学会考虑。


好了,以上便是原期的所有内容了,我是leo,咱们下期再见~

随机推荐

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育