Google CEO Sundar Pichai在线打Call,称Gemini 2.5 Pro Experimental是一款最先进的「思维」模型,在多个基准测试中领先,特别是在推理和编程能力上有了显著的提升。
各大AI厂商要确定其AI的能力,都会提供一些独立的测试评分。市场上有不少相关的测试平台,热门的有OpenCompass丶ARC基准测试丶HellaSwag基准测试等等,中国则有大模型测评机构SuperCLUE等。香港大学经管学院也加入成为测试员,并发表《人工智能模型图像生成能力综合评测报告》,针对15个「文生图模型」及7个「多模态大语言模型」进行评估。研究显示,早前引起全球关注的DeepSeek新 ...