芯片算力 重要度 3

448GB显存本地跑M3

Reddit 用户展示由 2 张 RTX Pro 6000 Max-Q、8 张 RTX 3090 和 2 张 RTX 5090 组成的本地推理机器,总显存达 448GB。其使用 vLLM 以 AWQ-INT4 运行 MiniMax M3,单流约 30 tok/s,批处理约 960 tok/s,并尝试百万上下文。

事件进展(1 篇报道)

  1. 2026-07-04 04:02

← 返回首页