AI 见闻

克劳德作品4.8:“一个适度但切实的改进”

Simon Willison's Weblog··约 4 分钟阅读

克劳德作品4. 8:“适度但切实的改善”2026年5月28日Anthropic推出了克劳德作品4。今天8。我最喜欢的是发布公告中的这条注释:用户会找到Opus 4。8是对其前身的适度但切实的改进。

还有更多工作要做:我们正在努力开发和发布模型,以较低的成本提供与Opus相同的许多功能。看到人工智能实验室诚实地将一个版本描述为对之前模型的微小增量改进,真是令人耳目一新!诚实似乎是一个主题。

以下是该公告中我最喜欢的另一个注释:作品4中最突出的改进之一。8是它的诚实。我们训练所有的模型诚实--例如,避免提出他们无法支持的主张。但人工智能模型的一个普遍问题是,它们有时会妄下结论,自信地声称他们的工作取得了进展,尽管证据很少。

早期测试者报告称Opus 4. 8更有可能表明其工作的不确定性,并且不太可能提出无证据的主张。我们的评估证实了这一点,评估显示作品4。8允许其编写的代码中存在缺陷而未经标记的可能性大约是其前身的四倍。

该链接的系统卡包括以下内容:克劳德作品4. 8在六个模型中,在每个基准上的错误率最低--这是事实幻觉的最直接衡量标准。

它主要通过对不确定的问题弃权而不是正确回答更多问题来实现这一目标。模型特征自4以来没有太大变化。7.它的价格与作品4相同。5/4. 6/4. 7- 5美元/百万投入,25美元/百万产出。

“快速模式”的价格是这个价格的两倍,这比他们之前的型号--快速模式4. 6/4. 7仍为30美元/150美元。请注意,快速模式仅适用于参与研究预览的组织,“联系您的客户经理以请求访问权限”。可靠知识截止日期和训练数据截止日期均为2026年1月,与4相同。

7.上下文窗口仍然是1,000,000个令牌,最大输出是128,000个令牌。克劳德作品4中的新内容。8文档包含一些更有趣的细节。这些引起了我的注意:通话中系统消息。克劳德作品4. 8接受角色:“系统”用户提交主题信息后立即发送消息数组(取决于放置规则)。

这允许您稍后在长时间运行的对话中添加更新的指令,而无需重新执行完整的系统提示,这可以保留早期回合中的提示缓存命中,并减少代理循环上的输入成本。另请参阅Anthropic Python SDK的此更新。

能够在对话中引导系统提示听起来真的很强大。

我担心这会与我自己的LLM库提供的抽象不兼容,该库要求每次对话有一个系统提示。. .但事实证明,我最近的重新设计应该可以很好地处理这个问题。降低提示缓存最小值。Claude Opus 4上的最小可缓存提示长度。

8代表1,024个代币,低于Claude Opus 4。7.我检查了4。7的最小值为4,096。

还有一些鹈鹕这是鹈鹕骑自行车的全部五种思维水平,低、中等,高,xhigh而max:这次我使用LLM CLI运行它们,将日志导出到Markdown,然后使用Claude Opus 4。

8给我构建一个HTML工具,它可以用svg呈现Markdown在页面上显示为SVG的受保护代码块。(后来我有GPT-5。Codex中的5 xhigh更新该代码以删除任何XSS漏洞。如果我问的话,我确信克劳德可以做到这一点,但GPT-5。

5是我目前的代码安全毯。)最大的显然是最好的,但它确实需要25个输入、17,167个输出代币,总成本为43美分!

更多最近的文章- 我认为Anthropic和OpenAI已经找到了产品市场的契合度-2026年5月27日- 教皇利奥十四世关于人工智能的通谕注释-2026年5月25日

原文出处
Claude Opus 4.8: "a modest but tangible improvement"

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。