首页 > 新车测试 > 新车测试 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

新车测试更多>>

2024年11月深圳市福田区疾病预防控制中心招聘特聘岗位工作人员公告(2人) 2024年奉贤区部分机关事业单位编外人员招聘(公安岗位第二轮)公告(11人) 2024年11月长沙县第三医院招聘编外专业技术人员公告(4人) 2025年桃源县第一中学高校招聘教师公告(23人) 限时优惠价9.59万元 哈弗H6经典版竞争力分析 别克GL8家族8月终端销量9974台 卫冕MPV月销量冠军 全新奇瑞瑞虎7前瞻:轴距2672mm 预计售价9.89万元起 吉利银河星舰7前瞻:轴距2755mm 预计售价11.58万元起 2024年江西中医药大学高层次人才招聘公告 2024年吉安市永丰县某单位招聘派遣员工公告 2024年南昌市西湖区朝阳卫生院招聘劳务派遣制人员公告 2024年江西省一二三五五青少年发展与心理健康服务中心招聘公告 2024年赣南师范大学《红色文化学刊》编辑部招聘工作人员公告(补招) 2024年漳州市龙文区招聘中学国企教师公告 2024年厦门市集美区嘉誉实验幼儿园非在编教师招聘简章 2024年厦门市集美区宁宝幼儿园非在编厨房人员招聘简章 定位中大型SUV,搭载2.0T+7DCT,大众揽巡实力表现值得一看 既能商务用车也能家庭用车,定位中大型MPV的别克GL8值得购入 定位中型MPV传祺E8,空间表现宽敞舒适,是否适合家庭用车? 支持换电服务+4.5秒破百,空间表现宽敞的蔚来ES6适合家用 油耗低至4.6L,关键才卖10.99万的凯翼昆仑iHD 又是一匹\"黑马\"? 比亚迪又一硬派越野车降价!入门就配660马力,实力不输猛禽 定位中型车的一汽丰田亚洲龙,配2.0L+CVT,其产品实力表现如何? 方程豹 豹5,配云辇系统,综合续航1200公里,适合越野爱好者 2025 款福特 Bronco Stroppe 版灵感源自传奇的 Baja Racer 比亚迪的薄利多销魔法,卷出新高度,赢在未来 日产发布全新第四代Murano(楼兰),将抛弃CVT 丰田汽车与波士顿动力合作 推进AI人形机器人技术 丰田研究所与波士顿动力合作,推进机器人大规模行为模型等研究 全面升级 吉利中国星东方曜双子新车解读