AI Leaderboard – 关于 AI 及大语言模型 LLM 的各大排行榜汇总
最近发现有不少 ai 相关排行榜,这也是关注获取所有 AI 资讯的渠道,也能看到目前 AI 发展程度。所以进行了整理汇总。
https://lmsys-chatbot-arena-leaderboard.hf.space/?__theme=light
LMSYS Org(Large Model Systems Organization),最为知名的目前大型语言模型的埃洛评级(Elo Rating)监测,分享过多次。目前该排名值得关注的是 Claude 3 Opus 仍然排名第一,并且其更便宜模型 Claude 3 Haiku 也超过了部分 GPT4 模型。
https://www.cbinsights.com/learn/ai-100-2024
该网站综合评估选出了目前 TOP100 从事 AI 模型研究和应用的公司。Hugging Face(抱脸)凭借其强大的开源开发者社区支持,提供大量的预训练模型和数据集和相关资源综合排名第一,抱脸还有很多有意思的排名,如模型竞技场排名/最佳 AI 内容贡献者等都值得关注;第二名 Databricks 是家专注大数据处理的 AI 公司,通用开源的大型语言模型 DBRX 即由它们创建。后面跟着的是之前提到的法国黑马 AI 初创公司 MISTRAL 以及 openai。
Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents – vectara/hallucination-leaderboard
这是目前 AI 幻觉率(Hallucination)排名。截止今年 3月底,目前幻觉率最低 TOP 出现个 Intel Neural Chat 7B,其次 GPT4 幻觉处理仍然很好。
No Description
这个排行榜是「SuperCLUE:中文语言通用大模型综合性测评基准」排名,更关注中文语言的排行榜,包括古诗/文学/歇后语和方言等测试排名。除去 GPT4,排名靠前的即国内文心一言/智谱 AI/通义千问等。
Language models ranked and analyzed by usage across apps
大型语言模型使用接口排行榜和数据,有免费版本以及付费。
Web site created using create-react-app
AI 模型翻译质量和 Token 使用耗费排行榜。
—
还有些排行榜已经停止更新,这个榜单将持续补充。
相关链接