社区热议重要度 3 首次收录 2026-07-03 19:36:57

新模型谜题测试引发讨论

Reddit 用户用两个无捷径谜题测试 MiMo-V2.5-Pro、MiniMax M3、Mercury 2 和 LongCat-2.0，称其中一款模型连续编造来源。该帖属于民间测试，能反映幻觉和推理体验，但方法不够系统。

事件进展（1 篇报道）