transformers - 搜索 News

5 小时

上周五，腾讯宣布推出自研深度思考模型「混元 T1」正式版，这是一个能秒回、吐字快、擅长超长文处理的强推理模型。而之所以具备这些优势，很大程度上是因为腾讯采用了 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 ...

腾讯网1 天

RWKV-7 引入广义 Delta Rule，表达力超越 Transformer

RWKV-7 通过一系列创新（例如广义 Delta Rule），在计算效率、任务表现和模型表达力全面超越 Transformer 和过去的 RWKV-6 架构。在训练数据远低于 Qwen2.5、Llama3.2 ...

1 天

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

事实上，由于注意力至少需要将 QK^T 部分实体化（通常是非常大的整数，非常大的整数），这几乎肯定会溢出二级缓存（这要么迫使你在内存中计算的速度慢于 OOM，要么迫使你通过将 QK^T 矩阵分片为部分关联块并传入 softmax 来将其转化为顺序问题 ...

5 天

探索彼得库伦：揭示擎天柱灵魂配音背后的故事

探索彼得库伦：揭示擎天柱灵魂配音背后的故事引言在变形金刚的世界里，有一个名字如雷贯耳，那就是彼得库伦（Peter Cullen）。他的声音为擎天柱这一角色赋予了灵魂和深度，使其成为无数观众心目中的英雄。近年来，随着相关作品的重制和新作的推出，彼得库伦的经典配音再度引起了广泛的讨论和热议。那么，是什么让彼得库伦的配音如此经典？本文将探讨这个问题，揭示其背后鲜为人知的故事和影响。彼得库伦的职业生 ...

知乎专栏 on MSN8 天

添加各种trick训练出来的SigLIP2

这个论文有很多干货，整合了前几年各领域的经典trick，做了很多实验。为了得到一个更好的backbone，把能用到的loss、能添加的辅助任务都用上了： CLIP的图文对比lossLocCa的caption loss类MAE的重建loss ...

10 天

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

过去十年，归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化（batch ...

游戏天地 on MSN10 天

IGN 8.5分经典回归！钢锁变恐龙横扫战场，这游戏玩透机甲

作为变形金刚游戏史上最具里程碑意义的作品之一，《变形金刚：赛博坦的陨落》（Transformers: Fall of ...

证券之星股票频道 on MSN20 天

优刻得：KTransformers采用单卡替代多卡集群方式降低硬件成本

证券之星消息，优刻得(688158)03月04日在投资者关系平台上答复投资者关心的问题。投资者：请问，2月10日清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目更新，称能大幅降低AI大模型适配的硬件成本，这个KTransformers能否降本每百万token的成本？优刻得有没有考虑广泛运用KTransformers来实现AI云计算服务的降本增效？优刻得董秘： ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果