H64LM从零实现MoE模型
Reddit用户发布H64LM项目,用PyTorch从零实现249M参数MoE Transformer,包含GQA、Top-2路由、SwiGLU、RoPE、RMSNorm、滑动窗口注意力等组件。作者称该项目主要用于学习现代LLM训练管线,WikiText-103检查点验证了端到端流程但模型性能不强。
事件进展(1 篇报道)
-
2026-07-04 05:18Reddit r/MachineLearning H64LM: A 249M-parameter Mixture-of-Experts Transformer built from scratch in PyTorch [P]