目录
0 引言1 通用-总排行榜闭源 + 开源开源U 重要开源大语言模型简介Qwen2K 大模型评测榜单MMLUHELMHumanEvalSuperCLUEOpenCompass/司南X 参考文献Y 推荐文献
回到顶部(Back to Top)
0 引言
通过排行榜,能快速了解各模型/产品的技术竞争力、综合竞争力。
回到顶部(Back to Top)
1 通用-总排行榜
SuperCLUE总排行榜 | 2024.06
闭源 + 开源
排名 | 模型 | 机构 | 总分 | 理科得分 | 文科得分 | Hard得分 | 使用方式 | 国内/国外 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | GPT-4o | OpenAI | 81 | 81 | 76 | 85 | API | 国外 | |
2 | Claude-3.5-Sonnet-200k | Anthropic | 77 | 75 | 72 | 84 | API | 国外 | |
2 | Qwen2-72B-Instruct | 阿里巴巴 | 77 | 76 | 76 | 79 | 模型 | 国内 | 开源 |
3 | DeepSeek-V2 | 深度求索 | 76 | 74 | 76 | 78 | API | 国内 | |
3 | GLM-4-0520 | 清华&智谱AI | 76 | 74 | 74 | 79 | API | 国内 | |
3 | SenseChat5.0 | 商汤 | 76 | 73 | 75 | 78 | API | 国内 | |
4 | AndesGPT | OPPO | 75 | 76 | 76 | 72 | API | 国内 | |
4 | GPT-4-Turbo-0409 | OpenAI | 75 | 77 | 75 | 74 | API | 国外 | |
5 | GPT-4(官网) | OpenAI | 73 | 75 | 74 | 70 | 网页 | 国外 | |
6 | Baichuan4 | 百川智能 | 72 | 71 | 74 | 70 | API | 国内 | |
6 | Doubao-pro-32k-0615 | 字节跳动 | 72 | 73 | 74 | 69 | API | 国内 | |
6 | Moonshot(kimi) | 月之暗面 | 72 | 67 | 74 | 75 | 网页 | 国内 | |
6 | 山海大模型4.0 | 云知声 | 72 | 76 | 75 | 65 | API | 国内 | |
6 | 360gpt2-pro | 360 | 72 | 72 | 75 | 69 | API | 国内 | |
7 | MiniMax-abab6.5 | 稀宇科技 | 71 | 70 | 74 | 68 | API | 国内 | |
7 | 通义千问2.5 | 阿里巴巴 | 71 | 72 | 76 | 63 | API | 国内 | |
8 | 文心一言4.0 | 百度 | 69 | 74 | 73 | 60 | API | 国内 | |
8 | Llama-3-70B-Instruct | Meta | 69 | 68 | 67 | 72 | POE | 国外 | |
9 | Gemini-1.5-Pro | 68 | 72 | 71 | 62 | API | 国外 | ||
9 | 阶跃星辰step-1-32k | 阶跃星辰 | 68 | 69 | 73 | 62 | API | 国内 | |
10 | 讯飞星火V4.0 | 科大讯飞 | 67 | 71 | 70 | 60 | API | 国内 | |
11 | GPT-3.5-Turbo-0125 | OpenAI | 64 | 64 | 69 | 59 | API | 国外 | |
12 | Yi-1.5-34B-Chat-16K | 零一万物 | 63 | 66 | 71 | 52 | 模型 | 国内 | 开源 |
13 | qwen2-7b-instruct | 阿里巴巴 | 62 | 63 | 72 | 51 | 模型 | 国内 | 开源 |
14 | XVERSE-65B-2-32K | 元象科技 | 60 | 58 | 72 | 49 | API | 国内 | 开源 |
15 | qwen1.5-32b-chat | 阿里巴巴 | 57 | 61 | 74 | 35 | 模型 | 国内 | 开源 |
16 | Llama-3-8B-Instruct | Meta | 54 | 54 | 61 | 47 | 模型 | 国外 | 开源 |
17 | Baichuan2-13B-Chat-v2 | 百川智能 | 53 | 47 | 66 | 45 | 模型 | 国内 | 开源 |
17 | Yi-1.5-6B-Chat | 零一万物 | 53 | 55 | 64 | 39 | 模型 | 国内 | 开源 |
18 | Phi-3-mini-128k-instruct | 微软 | 40 | 49 | 49 | 22 | 模型 | 国外 | 开源 |
19 | gemma-7b-it | 38 | 28 | 57 | 29 | 模型 | 国外 | 开源 | |
19 | qwen2-1.5b-instruct | 阿里巴巴 | 38 | 34 | 61 | 18 | 模型 | 国内 | 开源 |
20 | Llama-2-13b-chat | Meta | 35 | 34 | 48 | 21 | 模型 | 国外 | 开源 |
开源
排名 | 模型 | 机构 | 总分 | 理科得分 | 文科得分 | Hard得分 | 使用方式 | 国内/国外 |
---|---|---|---|---|---|---|---|---|
1 | Qwen2-72B-Instruct | 阿里巴巴 | 77 | 76 | 76 | 79 | 模型 | 国内 |
2 | Llama-3-70B-Instruct | Meta | 69 | 68 | 67 | 72 | POE | 国外 |
3 | Yi-1.5-34B-Chat-16K | 零一万物 | 63 | 66 | 71 | 52 | 模型 | 国内 |
4 | qwen2-7b-instruct | 阿里巴巴 | 62 | 63 | 72 | 51 | 模型 | 国内 |
5 | XVERSE-65B-2-32K | 元象科技 | 60 | 58 | 72 | 49 | API | 国内 |
6 | qwen1.5-32b-chat | 阿里巴巴 | 57 | 61 | 74 | 35 | 模型 | 国内 |
7 | Llama-3-8B-Instruct | Meta | 54 | 54 | 61 | 47 | 模型 | 国外 |
8 | Baichuan2-13B-Chat-v2 | 百川智能 | 53 | 47 | 66 | 45 | 模型 | 国内 |
8 | Yi-1.5-6B-Chat | 零一万物 | 53 | 55 | 64 | 39 | 模型 | 国内 |
9 | Phi-3-mini-128k-instruct | 微软 | 40 | 49 | 49 | 22 | 模型 | 国外 |
10 | gemma-7b-it | 38 | 28 | 57 | 29 | 模型 | 国外 | |
10 | qwen2-1.5b-instruct | 阿里巴巴 | 38 | 34 | 61 | 18 | 模型 | 国内 |
11 | Llama-2-13b-chat | Meta | 35 | 34 | 48 | 21 | 模型 | 国外 |
回到顶部(Back to Top)
U 重要开源大语言模型简介
Qwen2
Qwen2 URL
https://qwenlm.github.io/blog/qwen2/
简介
Qwen2系列模型除了技术性能上的提升,还展现了更多的应用潜力。
其多语言处理、长文本处理、代码生成、数学和逻辑推理等能力,已经在MMLU、GPQA、HumanEval等国际测评中得到了验证。
代码及数学能力也得到了显著提升
依赖项
Python >= 3.8
PyTorch
CUDA
Python第三方库
swanlab : 监控整个训练过程,并评估最终的模型效果
modelscope/魔搭 : 阿里机器学习模型平台、模型下载平台(Qwen2-1.5B-Instruct等)
transformers
datasets
peft
accelerate
pandas
一键安装
pip install swanlab modelscope transformers datasets peft pandas accelerate
ModelScope/魔搭社区模型下载URL
Qwen2-72B
https://modelscope.cn/models/qwen/Qwen2-72B
Qwen2-72B-Instruct
https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
相关报道
阿里Qwen2正式开源,性能全方位包围Llama-3 – Baidu/机器之心Pro 2024.06.17
全球最强开源模型Qwen2发布,阿里云为开闭源之争画下休止符 – Zhihu/硅星人 2024.06.07
教程资源
Qwen2大模型微调入门实战(完整代码) – CSDN
回到顶部(Back to Top)
K 大模型评测榜单
MMLU
URL
https://paperswithcode.com/
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
简介
MMLU,全称Massive Multitask Language Understanding(大规模多任务语言理解)是人工智能领域最有影响力的大模型测评基准之一。
MMLU)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等57项任务,用以测试大模型的世界知识和问题解决能力。
但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。
HELM
URL
https://crfm.stanford.edu/helm/lite/latest/
简介
斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于HELM框架,对不同模型在MMLU上的评估结果进行标准化和透明化处理,从而克服现有MMLU评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的5个示例进行情境学习,等等。
HumanEval
URL
https://github.com/openai/human-eval
简介
这是论文“评估代码训练的大型语言模型”中描述的 HumanEval 问题解决数据集的评估工具。
SuperCLUE
URL
https://www.superclueai.com
OpenCompass/司南
URL
https://rank.opencompass.org.cn
https://rank.opencompass.org.cn/leaderboard-llm
回到顶部(Back to Top)
X 参考文献
SuperCLUE总排行榜 | 2024.06
https://www.superclueai.com
回到顶部(Back to Top)
Y 推荐文献
2024人工智能指数报告(二):技术性能 – 36氪