|

华夏买卖网
2000活跃值=1元

首页 > 新车测试 > 新车测试 > 9.11和9.9哪个大？实测12个大模型8个都答错，ChatGPT也翻车了

9.11和9.9哪个大？实测12个大模型8个都答错，ChatGPT也翻车了

发布时间：2024-07-19 16:28:18来源： 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型，只有4个大模型给出了正确答案！这究竟是怎么一回事？快来看看！

全球AI大模型被一道小学生数学题难倒

日前，一道来自小学生的数学题却难倒了不少海内外AI大模型，这道题的内容是“9.11和9.9哪个更大”，而仅有4个大模型给出了正确答案。

挑战大模型的数学推理能力

大模型的数学能力一直是短板，即便是目前最好的大模型GPT4也仍然有很大进步空间，而此前笔者在采访12位大模型时也得出了一个惊人的结论，这些大模型中仅有4个回答是正确的，而其他8个大模型却都给出了错误的答案。

数字切分问题与模型的理解能力

而针对大模型的数学能力，笔者曾进行过深入的采访，大部分行业人士认为大模型数学能力差的根本原因还是出在分词上，即Tokenizer(分词器)在处理数字时会出现问题，导致模型难以正确理解和计算。

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题，12个大模型中，只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，其他8个大模型都认为9.11比9.9更大。

虽然最终4个大模型给出了正确答案，但这并不能掩饰大模型数学能力的薄弱，毕竟面对简单的大小比较题，8个大模型都给出了错误答案。

而对于未来大模型的发展方向，笔者也咨询了不少专家学者以及从业者，针对此前大模型的回答，不少人表示“并不意外”。

一些专家认为，未来在模型的训练数据上会越来越依赖构造型的数据，而不是直接爬取下来的数据，以提升模型的复杂推理能力。

因为直接爬取下来的数据中会夹杂大量的错误数据，这些错误数据会误导模型，导致模型做出错误的判断。

而构造型的数据则可以事先筛选，保证数据的准确性和可靠性，从而培养模型健康的思维方式。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“华夏买卖网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:小红书2025届实习生校园招聘会

上一篇:在人工智能快速发展的当下，普通人应该怎样应对

新车测试更多>>

2024年11月深圳市福田区疾病预防控制中心招聘特聘岗位工作人员公告（2人） 2024年奉贤区部分机关事业单位编外人员招聘（公安岗位第二轮）公告（11人） 2024年11月长沙县第三医院招聘编外专业技术人员公告（4人） 2025年桃源县第一中学高校招聘教师公告（23人）限时优惠价9.59万元哈弗H6经典版竞争力分析别克GL8家族8月终端销量9974台卫冕MPV月销量冠军全新奇瑞瑞虎7前瞻：轴距2672mm 预计售价9.89万元起吉利银河星舰7前瞻：轴距2755mm 预计售价11.58万元起 2024年江西中医药大学高层次人才招聘公告 2024年吉安市永丰县某单位招聘派遣员工公告 2024年南昌市西湖区朝阳卫生院招聘劳务派遣制人员公告 2024年江西省一二三五五青少年发展与心理健康服务中心招聘公告 2024年赣南师范大学《红色文化学刊》编辑部招聘工作人员公告（补招） 2024年漳州市龙文区招聘中学国企教师公告 2024年厦门市集美区嘉誉实验幼儿园非在编教师招聘简章 2024年厦门市集美区宁宝幼儿园非在编厨房人员招聘简章定位中大型SUV，搭载2.0T+7DCT，大众揽巡实力表现值得一看既能商务用车也能家庭用车，定位中大型MPV的别克GL8值得购入定位中型MPV传祺E8，空间表现宽敞舒适，是否适合家庭用车？支持换电服务+4.5秒破百，空间表现宽敞的蔚来ES6适合家用油耗低至4.6L，关键才卖10.99万的凯翼昆仑iHD 又是一匹\"黑马\"？比亚迪又一硬派越野车降价！入门就配660马力，实力不输猛禽定位中型车的一汽丰田亚洲龙，配2.0L+CVT，其产品实力表现如何？方程豹豹5，配云辇系统，综合续航1200公里，适合越野爱好者 2025 款福特 Bronco Stroppe 版灵感源自传奇的 Baja Racer 比亚迪的薄利多销魔法，卷出新高度，赢在未来日产发布全新第四代Murano（楼兰），将抛弃CVT 丰田汽车与波士顿动力合作推进AI人形机器人技术丰田研究所与波士顿动力合作，推进机器人大规模行为模型等研究全面升级吉利中国星东方曜双子新车解读

Copyright 2017-2025 华夏买卖网版权所有京ICP备17066895号-1