PC Mini Windows 1.0 I7

AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini ...

测试结果在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类参与者；开源模型中，QwQ-32B-Preview 以 1261 分位居榜首。然而，许多模型在解决简单问题时仍显吃力，通常排名在人类参与者的后 20%。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点