半年多过去了，ChatGPT 的排名快“垫底”了

 当前位置：首页 > 行业热点 > > 正文

来源：ZAKER科技时间：2023-09-08 10:17:18

 字号：大中小

文 | 三言 Pro

(资料图)

昨天，笔者无意中刷到一张图片。

据该图片显示，OpenAI 的 GPT-4 在 11 个大模型中（第一名序号为 0），已经排到了最后。还有网友配上了 "GPT4：我的冤屈怎么诉？" 的字样。

这不禁让人好奇，今年年初，ChatGPT 爆火以后，其他公司才开始提大模型的概念。

这才半年多，GPT 就已经 " 垫底 " 了？

于是，笔者想看看 GPT 排名到底咋样了。

测试时间不同，测试团队不同，GPT-4 排第十一

从前文中图片上显示的信息来看，这个排名是出自 C-Eval 榜单。

C-Eval 榜单，全称 C-Eval 全球大模型综合性考试测试榜，是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉，该套件覆盖人文、社科、理工、其他专业四个大方向，包括 52 个学科，涵盖微积分、线性代数等多个知识领域。共有 13948 道中文知识和推理型题目，难度分为中学、本科、研究生、职业等四个考试级别。

于是笔者查看了最新的 C-Eval 榜单。

C-Eval 榜单的最新排名与前文中图片所显示的排名相符，排名前十一的大模型中，GPT-4 排最后。

据 C-Eval 榜单介绍，这些结果代表 zero-shot（零样本学习）或者 few-shot（少样本学习）测试，但 few-shot 不一定比 zero-shot 效果好。

C-Eval 表示，在其测试中发现许多经过指令微调之后的模型在 zero-shot 下更好。其测试的很多模型同时有 zero-shot 和 few-shot 的结果，排行榜中显示了总平均分更好的那个设置。

C-Eval 榜单还注明了，大模型名字中带 "*" 的，表示该模型结果由 C-Eval 团队测试得到，而其他结果是通过用户提交获得。

此外，笔者还注意到，这些大模型提交测试结果的时间有很大差别。

GPT-4 的测试结果提交时间是 5 月 15 日，而位居榜首的云天书，提交时间为 8 月 31 日；排第二的 Galaxy 提交时间为 8 月 23 日；排第三的 YaYi 提交时间为 9 月 4 日。

并且，排名前 16 的这些大模型，只有 GPT-4 的名字加了 "*"，是由 C-Eval 团队测试的。

于是笔者又查看了完整的 C-Eval 榜单。

最新的 C-Eval 榜单一共收录了 66 个大模型的排名。

其中，名字带 "*"，也就是由 C-Eval 团队测试的，只有 11 个，且提交测试的时间均为 5 月 15 日。

这些由 C-Eval 团队测试的大模型，OpenAI 的 GPT-4 排第十一，ChatGPT 排第三十六，而清华智谱 AI 的 ChatGLM-6B 排在第六十，复旦的 MOSS 排在了第六十四。

虽然这些排名可以看出国内的大模型发展势头的迅猛，但笔者认为，毕竟不是同一团队在同一时间进行的测试，不足以完全证明这些大模型谁强谁弱。

这就好比，一个班的学生，每个人的考试时间不同，答的试卷也都不一样，怎么能靠每个学生的分数比高低呢？

大模型开发者怎么说？多家表示在中文等能力上超过 ChatGPT

最近，大模型的圈子相当热闹。

又是百度、字节等 8 家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案，可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。

那这些大模型的开发者又都是怎么介绍自家产品的呢？

7 月 7 日，在 2023 世界人工智能大会 " 大模型时代的通用人工智能产业发展机遇以及风险 " 论坛上，复旦大学计算机科学技术学院教授、MOSS 系统负责人邱锡鹏表示，复旦对话式大型语言模型 MOSS 在今年 2 月发布后，还在连续不停地迭代，"最新的 MOSS 已经能够在中文能力上超过 ChatGPT。"

7 月底，网易有道上线翻译大模型，网易有道 CEO 周枫公开表示，在内部的测试中，在中英互译的方向上，已经超越 ChatGPT 的翻译能力，也超过了谷歌翻译的水准。

8 月下旬，在 2023 年亚布力论坛夏季高峰会上，科大讯飞创始人、董事长刘庆峰发表演讲时称，"讯飞星火大模型的代码生成和补齐能力已经超过了 ChatGPT，其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪，所需要的就是时间和算力。"

商汤近期的新闻稿中称，今年 8 月，新模型 internlm-123b 完成训练，参数量提升至 1230 亿。在全球 51 个知名评测集共计 30 万道问题集合上，测试成绩整体排名全球第二，超过 gpt-3.5-turbo 以及 meta 公司新发布的 llama2-70b 等模型。

据商汤介绍，internlm-123 在主要评测中，有 12 项成绩排名第一。其中，在评测集综合考试中的 agieval 分数为 57.8，超越 gpt-4 位列第一；知识问答 commonsenseqa 的评测分数为 88.5，排名第一；internlm-123b 在阅读理解的五项评测中成绩全部居榜首。

此外，在推理的五项评测中成绩排名第一。

本月初，作业帮正式发布自研银河大模型。

作业帮表示，银河大模型在 C－Eval、CMMLU 两大权威大语言模型评测基准的成绩。数据显示，作业帮银河大模型以平均分 73．7 分位居 C－Eval 榜首；同时在 CMMLU 榜单 Five－shot 和 Zero－shot 测评中分别以平均分 74．03 分及 73．85 分位列第一，成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。

昨天，百川智能宣布正式开源微调后的 Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat 与其 4bit 量化版本。

百川智能创始人、CEO 王小川称，经过微调之后的 Chat 模型，在中文领域，在 Q&A 问答环境，或者摘要环境里面，评价它的实际性能已经超过 ChatGPT-3.5 这样的闭源模型。

今天，在 2023 腾讯全球数字生态大会上，腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称，腾讯混元大模型中文能力已经超过 GPT-3.5。

除了这些开发者的自我介绍，也有一些媒体和团队对一种大模型进行评比。

8 月上旬，清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示，百度文心一言在三大维度 20 项指标中综合评分国内领先，较优于 ChatGPT，其中中文语义理解排名靠前，部分中文能力较优于 GPT-4。

8 月中旬，有媒体报道称，8 月 11 日，小米大模型 MiLM-6B 现身 C-Eval、CMMLU 大模型评测榜单。截至当前，MiLM-6B 在 C-Eval 总榜单排名第 10、同参数量级排名第 1，在 CMMLU 中文向大模型排名第 1。

8 月 12 日，天津大学发布《大模型评测报告》。报告显示，GPT-4 和百度文心一言相较于其他模型综合性能显著领先，两者得分相差不大，处于同一水平。文心一言已经在大部分中文任务中实现了对 ChatGPT 的超越，并逐步缩小与 GPT-4 的差距。

8 月下旬，有媒体报道称，快手自研的大语言模型 " 快意 "（KwaiYii）已开启内测。在最新的 CMMLU 中文向排名中，快意的 13B 版本 KwaiYii-13B 同时位列 five-shot 和 zero-shot 下的第一名，在人文学科、中国特定主题等方面较强，平均分超 61 分。

通过上述内容可以看出，这些大模型虽然纷纷号称自己在某排名中居首，或者是在某某方面超越 ChatGPT，但大多是在一些具体的领域表现优异。

另外，有一些综合评分超过了 GPT-3.5 或 GPT-4，但 GPT 的测试是停留在 5 月的，谁能保证这近 3 个月的时间里，GPT 没有进步呢？

OpenAI 的处境

根据瑞银集团 2 月的一份报告显示，在 ChatGPT 推出仅两个月后，它在 2023 年 1 月末的月活用户已经突破了 1 亿，成为史上用户增长速度最快的消费级应用程序。

但 ChatGPT 的发展也不是那么顺利。

今年 7 月，有不少 GPT-4 用户吐槽，与之前的推理能力相比，GPT-4 的性能有所下降。

有些用户在推特以及 OpenAI 在线开发者论坛上指出了问题，集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号，只能记得最近的提示等等。

8 月，又有一份报告称，OpenAi 可能处于潜在的财务危机中，可能于 2024 年底破产。

报告中表示，OpenAI 仅运行其人工智能服务 ChatGPT 每天就要花费约 70 万美元。目前，该公司正试图通过 GPT-3.5 和 GPT-4 实现盈利，但是还尚未产生足够的收入实现收支平衡。

不过，OpenAI 或许也有新的转机。

日前，OpenAI 宣布，将于 11 月举办首届开发者大会。

虽然 OpenAI 表示不会发布 GPT-5，但 OpenAI 称将有来自世界各地的数百名开发人员与 OpenAI 团队一起，提前一览 " 新的工具 "，并且交流想法。

这可能意味着，ChatGPT 已经取得了新的进步。

另据澎湃新闻报道，8 月 30 日，一位知情人士透露，通过销售 AI 软件和驱动其运行的计算能力，OpenAI 预计将在未来 12 个月内实现超过 10 亿美元的收入。

今天，又有媒体报道称，本月晚些时候摩根士丹利将推出一款和 OpenAI 共同研发的生成式人工智能聊天机器人。

和摩根士丹利的银行家打交道的人，非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验，对 OpenAI 来说，也许会是一个巨大的收获。

人工智能时代的到来，已经势不可挡。至于到底谁更胜一筹，不能光靠自己说，还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超 ChatGPT。

标签：

上一篇：“确山元素”农畜产品亮相盛会下一篇：最后一页

知识 药尘结局

知识 蒙古国海军什么梗

社交电商是什么意思？社交电商都有哪些特点？社交电商相关介绍

吉林天桥岭发现被猎杀的狍子 “凶手”疑似野生东北豹

警察节里的初心传承：新警老警延续“红蓝”血脉

青海海北州门源县发生3.2级地震 震源深度10千米

青海新疆联合开展冬季跨区域巡护 常态化巡查野生动物栖息地

青海率先实现州县救灾物资储备库全覆盖

西安警方：本轮疫情以来30人因造谣传谣被查处

西安群众如何就医？记者带你去看看

积极落实防控措施 多地全力抗击疫情

中药产业拓宽致富路

脱贫攻坚与乡村振兴有机衔接 扎实推动城乡共同富裕

安阳本土确诊病例上升至26例

3次推迟婚期 满洲里抗疫民警兑现承诺：“我回来娶你了！”

上海公安民警在岗位上迎接2022年“中国人民警察节”

郑州核酸检测为中小学生开辟“绿色通道”

反扒便衣警察“小曹”：藏在人海中的隐形“守护者”

哥哥移植肾脏给病重弟弟 已在上海顺利康复

网友与人裸聊被敲诈10万余元 被告人获刑5年

1月10日起天津市暂停开展旅行社旅游业务活动

“3·28”特大跨境电信网络诈骗案公开审理

忠诚履职 守护万家灯火

奥密克戎病例已涉天津、安阳 “动态清零”必须坚持！

专家协作成功完成亲体肾移植 同“肾”兄弟顺利康复

著名指挥陈燮阳携苏州交响乐团“相约北京”

中国热科院选育出4个木薯新品种

北京疾控：12月9日以来途经或旅居天津市人员请立即报备

河南安阳本轮疫情累计报告确诊病例26例

许勤批示黑土地保护不力问题：加快形成黑土地保护长效机制

【挑战365天正能量速写画】第041期：当警娃难，当双警家庭的警娃更难

重庆姐弟坠亡案两被告人5个月间聊天记录曝光

因疫情防控措施落实不力 江苏金湖一超市被红牌警告

江歌案一审判决刘鑫赔偿近70万元 有何依据？专家解读

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

一线工作近22年的缉毒警：我知道坏的是毒品不是人性

青海保障门源地震后生活必需品应急物资

江西最大文物倒卖案宣判：倒卖国家二级文物 9人获刑

呼和浩特：寒假期间有条件的学校要开展校内托管服务

广西东兴口岸恢复通关 入境需网上预约

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

天津市委市政府致全市父老乡亲的慰问信：我们一定能够打赢

北京市十五届人大五次会议胜利闭幕

“中国最后一个原始部落”翁丁老寨火灾原因公布

天津：划定封控区 全市开展全员核酸检测

重庆姐弟被生父扔下坠亡案上诉期结束 一审法院暂未收到两被告人上诉状

子夜直击，天津寒天战“疫”

兰州名师话“美育”：“尚乐立人”分层培优 以“美”润教

中国边疆“北方第一所”：9名民警守护“生命禁区”

江歌母亲江秋莲：尊重法院判决，法律认定在我意料之中

知识药尘结局

知识蒙古国海军什么梗

青海海北州门源县发生3.2级地震震源深度10千米

青海新疆联合开展冬季跨区域巡护常态化巡查野生动物栖息地

积极落实防控措施多地全力抗击疫情

脱贫攻坚与乡村振兴有机衔接扎实推动城乡共同富裕

3次推迟婚期满洲里抗疫民警兑现承诺：“我回来娶你了！”

哥哥移植肾脏给病重弟弟已在上海顺利康复

网友与人裸聊被敲诈10万余元被告人获刑5年

忠诚履职守护万家灯火

专家协作成功完成亲体肾移植同“肾”兄弟顺利康复

因疫情防控措施落实不力江苏金湖一超市被红牌警告

江歌案一审判决刘鑫赔偿近70万元有何依据？专家解读

广西东兴口岸恢复通关入境需网上预约

天津米面油存量由20天提高至30天超市菜市场进货量翻倍

天津：划定封控区全市开展全员核酸检测

重庆姐弟被生父扔下坠亡案上诉期结束一审法院暂未收到两被告人上诉状

兰州名师话“美育”：“尚乐立人”分层培优以“美”润教