社区热议 重要度 3

新模型谜题测试引发讨论

Reddit 用户用两个无捷径谜题测试 MiMo-V2.5-Pro、MiniMax M3、Mercury 2 和 LongCat-2.0,称其中一款模型连续编造来源。该帖属于民间测试,能反映幻觉和推理体验,但方法不够系统。

事件进展(1 篇报道)

  1. 2026-07-03 19:36

← 返回首页