近日,海外知名大模型产品平台OpenPipe公布了一项令人瞩目的研究成果,该研究成功地在重度推理游戏《时空谜题》中,利用一种名为GRPO的强化学习算法,使小型开源模型的表现超越了多个业界领先的推理模型,包括DeepSeek ...
Gemini 2.5 Pro除了在衡量人类偏好的大模型竞技场领先之外,还在常见的编程、数学和科学基准测试中处于领先地位,包括Humanity’s Last Exam(人类最后考试)这一难度超高的基准测试,与OpenAI ...
近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Research 的强化学习研究员 Brad Hilton 和 ...
标题:Claude 3.7 AI破局:50万token上下文窗口,引领AI新纪元 ...
Anthropic 正准备发布具有 500K 上下文窗口(当前为 200K)的 Claude Sonnet 3.7 的新版本。 “500K 很好,但我的 node_modules 需要 2M 的上下文窗口 ...
50 万 tokens 窗口可直接处理海量信息,避免检索增强生成(RAG)可能导致的上下文错乱问题,适用于政治文档分析、超长代码库管理(如数十万行代码)、跨文档摘要生成等复杂任务。不过该媒体也指出超大上下文可能带来内存和算力成本压力,模型实际利用率仍需验证。
不过,DeepSeek-V3-0324 在代码能力上取得了突破性进展,堪称此次更新最大的亮点。在前端代码生成领域,其产出代码不仅质量上乘,在审美设计上也有显著提升。实际呈现效果出色,已经十分接近 Claude 3.7 ...
Google近期发布的Gemini 2.5 Pro Experimental模型,以其卓越的性能和多模态处理能力,引发了业界的广泛关注。本文将详细介绍Gemini 2.5 Pro的关键特性,并通过与多个主流模型的对比实测,深入分析其在不同任务中的表现 ...
根据官方更新的版本说明, DeepSeek -V3-0324 主要是针对推理能力和前端开发能力进行了加强,写作风格实现了跟 R1 对齐,另外还有一些其他方面的小优化。 不过有一说一,虽然 V3-0324 仅仅只是 V3 ...
Databricks annonce un partenariat stratégique de cinq ans avec Anthropic, une entreprise d’IA axée sur la recherche et la ...
- Schneider Electric investit 700 M$ aux US pour l’IA. Le spécialiste de l’énergie prévoit de dépenser 700 M$ jusqu'en 2027 pour développer ses activités aux États-Unis et renforcer l'approvisionnemen ...