448GB显存本地跑M3
Reddit 用户展示由 2 张 RTX Pro 6000 Max-Q、8 张 RTX 3090 和 2 张 RTX 5090 组成的本地推理机器,总显存达 448GB。其使用 vLLM 以 AWQ-INT4 运行 MiniMax M3,单流约 30 tok/s,批处理约 960 tok/s,并尝试百万上下文。
事件进展(1 篇报道)
-
2026-07-04 04:02Reddit r/LocalLLaMA Uh.. Honey, how do you feel about takeout?