AI 前沿重要度 3 首次收录 2026-07-04 07:33:36

低秩原生训练Transformer

Reddit用户分享Native Factorized Weights实验：从初始化起将Transformer线性层设为W=V·Uᵀ，而非训练后压缩或使用LoRA。作者称在合适秩下可用更少参数超过同层数稠密基线，并可把预算用于扩大隐藏维度，目前在寻求arXiv背书。

事件进展（1 篇报道）