AI 前沿 重要度 3

低秩原生训练Transformer

Reddit用户分享Native Factorized Weights实验:从初始化起将Transformer线性层设为W=V·Uᵀ,而非训练后压缩或使用LoRA。作者称在合适秩下可用更少参数超过同层数稠密基线,并可把预算用于扩大隐藏维度,目前在寻求arXiv背书。

事件进展(1 篇报道)

  1. 2026-07-04 07:33

← 返回首页