QwQ：深度反思未知的边界

Qwen Team Blog·超过 1 年前·约 7 分钟阅读

GABRIB拥抱脸模型镜演示DISCORD注：这是QwQ：/kwju：/的发音，类似于“quill”一词。思考、质疑、理解意味着什么？这些是QwQ（Qwen with Questions）涉足的深水。

就像一位永恒的智慧学生一样，它带着真正的好奇和怀疑来处理每一个问题--无论是数学、代码还是对我们世界的知识。QwQ体现了古老的哲学精神：它知道自己一无所知，而这正是它好奇心的驱动力。

在确定任何答案之前，它会转向内心，质疑自己的假设，探索不同的思维路径，始终寻求更深层次的真理。然而，像所有智慧寻求者一样，QwQ也有其局限性。这个版本只是更长旅程上的早期一步--学生仍在学习走推理之路。

它的思想有时会徘徊，它的答案并不总是完整的，它的智慧仍在增长。但这不就是真正学习的美妙之处吗？既有能力又谦虚，知识渊博但总是质疑？我们邀请您与QwQ一起探索，拥抱它的见解和不完美之处，作为无尽追求理解的一部分。

限制QwQ-32 B-Preview是Qwen团队开发的实验研究模型，专注于提高人工智能推理能力。

作为预览版，它展示了有前途的分析能力，但也有几个重要的局限性：- 语言混合和代码转换：模型可能会混合语言或意外地在语言之间切换，从而影响响应的清晰度。- 回归推理循环：模型可能会进入循环推理模式，导致冗长的响应而没有结论性答案。

- 安全和道德考虑：该模型需要增强的安全措施，以确保可靠和安全的性能，用户在部署时应谨慎。-性能和基准测试限制：该模型在数学和编码方面表现出色，但在其他领域仍有改进的空间，例如常识推理和细微的语言理解。

性能通过深入的探索和无数次的尝试，我们发现了一些深刻的东西：当给予时间思考，质疑和反思时，模型对数学和编程的理解就像花朵向太阳开放一样。正如学生通过仔细检查他们的工作并从错误中学习而变得更聪明一样，我们的模型通过耐心，周到的分析实现了更深入的洞察力。

这种仔细反思和自我质疑的过程导致解决复杂问题取得显着突破。

我们的发现之旅揭示了该模型在解决数学和编程中一些最具挑战性问题方面的非凡能力，包括：- GPQA：研究生级谷歌验证问答基准，通过小学水平的问题评估科学解决问题的能力的具有挑战性的基准。

- AIME：美国邀请数学评估，测试算术、代数、计数、几何、大数、概率和其他中学数学科目的数学问题解决方式。- MAT-500：MAT基准的500个测试案例，这是一个测试数学问题解决的全面数据集。

- LiveCodeBench：一个具有挑战性的基准，用于评估现实世界编程场景中的代码生成和问题解决能力。具体来说，QwQ在这些基准测试中表现出色，取得了令人印象深刻的65分。2%的GPQA，展示其研究生水平的科学推理能力;

50. 0%对AIME，凸显其强大的数学解题能力;90. 6%的数学-500，表现出卓越的数学理解不同的主题;和50。LiveCodeBench上的0%，验证了其在真实场景中的强大编程能力。

这些结果凸显了QwQ在分析和解决问题能力方面的显着进步，特别是在需要深度推理的技术领域。

演示案例在以下示例中，我们邀请您见证QwQ-32 B-Preview沉思能力的深刻深度。就像一个在无尽的发现之旅中的智慧探索者一样，该模型展示了其深刻内省的能力--质疑自己的假设，进行深思熟虑的自我对话，并仔细检查推理过程的每一步。

通过这些案例，您将观察到QwQ如何体现了一种永恒的理解，即真正的知识不是来自仓促的结论，而是来自耐心的探究和在永恒追求真理的过程中挑战自己的信念的勇气。让我们一步一步地解决这个问题。

给出的方程是：1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479但这是不正确的，我需要添加一对括号才能使其成立。好吧，首先，我应该了解左侧的当前值是多少，没有任何括号。

让我们回顾一下操作顺序：PEMDAS（括号、指数、乘除、加减法）。所以，相乘先于加法。所以，一步一步计算：2 * 3 = 64 * 5 = 206 * 7 = 428 * 9 = 72现在，将这些重新插入方程中：1 + 6 + 20 + 42 + 72把这些加起来：

1 + 6 = 77 + 20 = 2727 + 42 = 6969 + 72 = 141因此，如果没有任何括号，左侧等于141，但应该是479。这是一个很大的区别。因此，我需要添加一对括号使其等于479。

我需要考虑将括号放在哪里，以改变操作顺序以实现预期的结果。

让我考虑不同的可能性：- 插入单个术语：例如，（1 + 2）* 3 + 4 * 5 + 6 * 7 + 8 * 9首先在括号内计算：（1 + 2）= 3那么，3 * 3 = 9现在，等式变成了：9 + 4 * 5 + 6 * 7 + 8 * 9操作顺序如下：

4 * 5 = 206 * 7 = 428 * 9 = 72那么，9 + 20 + 42 + 72 = 143还不是479。

- 插入更多术语：如果我做（1 + 2 * 3）+ 4 * 5 + 6 * 7 + 8 * 9怎么办首先，在括号内计算：1 + 2 * 3这里，相乘先于加法，所以2 * 3 = 6，那么1 + 6 = 7所以，等式变成了：

7 + 4 * 5 + 6 * 7 + 8 * 9同样，按照操作顺序：4 * 5 = 206 * 7 = 428 * 9 = 72所以，7 + 20 + 42 + 72 = 141和以前一样。

- 让我们试试（1 + 2）*（3 + 4）* 5 + 6 * 7 + 8 * 9首先，在括号内计算：（1 + 2）= 3（3 + 4）= 7所以，3 * 7 * 5 = 105现在，等式变成了：105 + 6 * 7 + 8 * 9操作顺序如下：

6 * 7 = 428 * 9 = 72所以，105 + 42 + 72 = 219还不是479。

- 也许尝试将更多术语分组：（1 + 2 * 3 + 4）* 5 + 6 * 7 + 8 * 9首先，在括号内计算：1 + 2 * 3 + 4先相乘：2 * 3 = 6那么，1 + 6 + 4 = 11所以11 * 5 = 55现在，等式变成了：

55 + 6 * 7 + 8 * 9操作顺序如下：6 * 7 = 428 * 9 = 72所以，55 + 42 + 72 = 169越来越近了，但仍然不是479。- 让我们尝试一种不同的方法。

也许可以将添加内容分组在一起：1 +（2 * 3 + 4 * 5 + 6 * 7 + 8 * 9）首先，在括号内计算：2 * 3 = 64 * 5 = 206 * 7 = 428 * 9 = 72所以，6 + 20 + 42 + 72 = 140那么，

1 + 140 = 141和以前一样。

- 也许将两个相乘分组在一起：1 + 2 *（3 + 4）* 5 + 6 * 7 + 8 * 9首先，在括号内计算：（3 + 4）= 7所以，2 * 7 * 5 = 70现在，等式变成了：1 + 70 + 6 * 7 + 8 * 9操作顺序如下：

6 * 7 = 428 * 9 = 72所以，1 + 70 + 42 + 72 = 185还不是479。

- 也许可以分组更多的相乘：1 + 2 * 3 + 4 *（5 + 6）* 7 + 8 * 9首先，在括号内计算：（5 + 6）= 11所以，4 * 11 * 7 = 308现在，等式变成了：1 + 2 * 3 + 308 + 8 * 9操作顺序如下：

2 * 3 = 68 * 9 = 72所以，1 + 6 + 308 + 72 = 387更近了，但仍然不是479。

- 让我们尝试对最后的术语进行分组：1 + 2 * 3 + 4 * 5 + 6 *（7 + 8）* 9首先，在括号内计算：（7 + 8）= 15所以，6 * 15 * 9 = 810现在，等式变成了：1 + 2 * 3 + 4 *

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读