新模型谜题测试引发讨论
Reddit 用户用两个无捷径谜题测试 MiMo-V2.5-Pro、MiniMax M3、Mercury 2 和 LongCat-2.0,称其中一款模型连续编造来源。该帖属于民间测试,能反映幻觉和推理体验,但方法不够系统。
事件进展(1 篇报道)
-
2026-07-03 19:36
Reddit 用户用两个无捷径谜题测试 MiMo-V2.5-Pro、MiniMax M3、Mercury 2 和 LongCat-2.0,称其中一款模型连续编造来源。该帖属于民间测试,能反映幻觉和推理体验,但方法不够系统。