低秩原生训练Transformer
Reddit用户分享Native Factorized Weights实验:从初始化起将Transformer线性层设为W=V·Uᵀ,而非训练后压缩或使用LoRA。作者称在合适秩下可用更少参数超过同层数稠密基线,并可把预算用于扩大隐藏维度,目前在寻求arXiv背书。
事件进展(1 篇报道)
-
2026-07-04 07:33
Reddit用户分享Native Factorized Weights实验:从初始化起将Transformer线性层设为W=V·Uᵀ,而非训练后压缩或使用LoRA。作者称在合适秩下可用更少参数超过同层数稠密基线,并可把预算用于扩大隐藏维度,目前在寻求arXiv背书。