千问给我的答案非常简单,基于我的伪代码做了简单的润色,生成的结果有点呆,假如是以前的我,会觉得也能接受,但当我体验完 DeepSeek 之后,我的选择有了方向。
它是一种模型压缩技术,通过将一个复杂的、计算开销大的大模型(称为教师模型)的知识“蒸馏”到一个更小、更高效的模型(称为学生模型)。 这个过程的核心目标是让学生模型在轻量化的同时,尽量保留教师模型的性能。
DeepSeek 横空出世,一下子受到全球关注 ,1 月 27 日美股闪崩 ,AI 第一股英伟达最高跌幅达 17%, 国内 AI 用户这个春节都在体验 DeepSeek,DeepSeek 服务器甚至卡到宕机。这到底是什么力量在推动呢?