开发者与开源 重要度 3

H64LM从零实现MoE模型

Reddit用户发布H64LM项目,用PyTorch从零实现249M参数MoE Transformer,包含GQA、Top-2路由、SwiGLU、RoPE、RMSNorm、滑动窗口注意力等组件。作者称该项目主要用于学习现代LLM训练管线,WikiText-103检查点验证了端到端流程但模型性能不强。

事件进展(1 篇报道)

  1. 2026-07-04 05:18

← 返回首页