神秘模型Hy3登顶OpenRouter排名,背后原因竟是缓存定价
一款名为Hy3 preview的模型在OpenRouter上使用量大幅领先,但质量并非顶尖,其成功主要归因于极低的有效价格和免费期积累的用户基础,而非模型本身的性能优势。
OpenRouter是一项通过单一API提供对大多数LLM访问的服务,鉴于新LLM发布的快速节奏,该服务最近变得非常有用。
由于该公司作为用户和LLM API之间的中间人,OpenRouter拥有关于用户如何与LLM交互的稳健且具有代表性的数据,并在AI模型排名页面上发布这些数据:这与实验室本身的做法不同,后者通常出于竞争原因对这些数据保密。
最近,我查看了OpenRouter的排名,发现了一些奇怪的事情。两款新模型在token使用量上击败了LLM宠儿Claude,并且领先超过50%?
我听说过DeepSeek Flash V4:这是DeepSeek的开源版本,不仅速度快、成本低,而且性能接近领先的LLM模型,成本非常低,因此它非常受欢迎并不令人意外。但Hy3 preview到底是什么?
我从未听说过Hy3,也没有人谈论过它。谷歌搜索会返回中国巨头腾讯关于Hy3开源发布的公告:Hugging Face上的模型页面本身内容稀疏,并且包含异常诚实的基准测试结果,与其他中国开源模型相比,这些结果对该模型不利。
在Hacker News上搜索Hy3只返回了一个与Hy3无关的提交,Reddit上的讨论更多是关于开放权重发布的。
Reddit上有一个帖子也提到了Hy3的崛起,但那是从5月6日开始的,当时OpenRouter免费提供Hy3;那个免费端点已不再可用,因此Hy3在上述每周排名中的使用量来自付费用户。Hy3 preview显然在代理编码以外的领域也很受欢迎。
我错过了什么吗?经过一些非科学测试,模型质量确实与其他中国模型相当,与Claude Opus 4.7和GPT 5.5等模型并不接近。它并不是一个被忽视的沧海遗珠,所以一定还有其他因素在起作用。
幸运的是,OpenRouter拥有数据来缩小可能的解释范围,但在检查数据后,我变得更加困惑。
Hy3 preview可通过OpenRouter API以标价0.066美元/1M输入token获得,这确实比当前排名第一的模型DeepSeek V4 Flash(标价0.10美元/1M输入token)便宜。
鉴于LLM和编码代理的成本急剧上升,更便宜的模型会占上风是有道理的,但前提是它提供类似的质量,而事实似乎并非如此。
以下是模型页面中Hy3 preview模型在OpenRouter上随时间变化的使用量图表:Hy3 preview在5月8日之前没有使用数据,这意味着该模型从免费SKU切换到了付费SKU。
自那以后,使用量也保持稳定,本文中显示的初始排名是在发布几周后,这表明使用量至少是自然的(或者伪造的成本非常高),而不是一次性的异常值。
值得注意的是,如果你对这里提供的数字进行数学计算,LLM API调用中输入token与输出token的细分现在总计是98%输入、2%输出。
对于OpenRouter AI模型排名,历史上曾出现过特定应用将其默认设置切换为某个特定LLM导致使用量激增的情况,例如2025年9月Kilo Code免费提供Grok Code Fast 1时,其受欢迎程度飙升。
但这里的情况似乎并非如此,因为应用只占Hy3 preview活动的一小部分。
OpenRouter的价值主张是能够将给定的API请求自动路由到不同的提供商:对于DeepSeek V4 Flash等开放权重模型,OpenRouter列出了13个提供商,但Hy3 preview尽管是开放权重,却只有一个提供商:总部位于新加坡的SiliconFlow。
他们在OpenRouter上的使用页面显示,在Hy3之前,SiliconFlow的使用量相对较少。
巧合的是,数据可视化显示,当Hy3 preview从免费转向付费时,使用量并没有大幅下降,这本身就很有趣:如果用户没有从免费模型中获得价值,一旦成本开始从他们钱包里扣除,他们很可能就会停止使用。
我错过了什么?
我是不是想太多了,答案其实就是因为“它最便宜”,并且从免费期获得了足够的亏损引流效应?但Hy3 preview真的是OpenRouter上由大公司支持的最便宜的LLM吗?
当我再次检查一些假设时,我发现OpenRouter的数据显示Hy3 preview并不是可用的性能最佳且最便宜的LLM:实际上DeepSeek V4 Flash才是,但有一些有趣的注意事项。
2026年的LLM经济学这里还有一些关于LLM API工作方式的说明,这些并不常被讨论。
LLM调用仍然是无状态的,这意味着在每一轮(包括用户向LLM发送消息提问)之后,当前对话线程中的所有token都会被重新处理,这意味着在代理的情况下,输入token的数量会随着每条连续消息而累积增加,
这也是为什么在上下文填满时频繁启动新线程被鼓励用于有效代理使用的原因之一。但即使在代理工作流程出现之前,像完整PDF这样的大型输入也会类似地使上下文膨胀。
因此,大多数LLM提供商都实现了提示缓存,可以重复使用对话中早期处理过的输入token:这是一个双赢的局面,为LLM提供商节省了时间/计算资源,并且节省的成本会传递给客户。
大多数LLM提供商会自动缓存输入,包括通过OpenRouter访问时:成本旁边的闪电磁盘符号表示token已被缓存,并且缓存可能并不总是被命中,特别是如果OpenRouter在线程中间切换提供商。
一个奇怪的API提供商是Anthropic(Claude)API,出于某种原因,它需要先为缓存写入付费。通常,缓存读取成本是输入成本的10%:OpenAI API、Anthropic API和Google Gemini API的最新模型都是这种情况。
对于提供DeepSeek V4 Flash的13家提供商,缓存读取成本在输入成本的20%到50%之间,这很合理,因为它们可能没有相同的规模经济。不过,有一个DeepSeek V4 Flash提供商是例外:那是2%的缓存读取成本!
(乘以2,小数点左移两位)DeepSeek的缓存读取价格为何如此之低?DeepSeek从V4开始实施了一种新的KV缓存方法,作为该模型的创建者,它能够最好地利用自己的创新,如上所述,这些好处会传递给客户。
DeepSeek V4 Pro变体模型,当由DeepSeek提供服务时,缓存读取成本为0.83%!(用计算器算一下)还记得我展示的98%的LLM API成本现在是输入token,而这些token被积极缓存吗?
这意味着LLM的“标价”现在具有误导性,但以一种对客户有利的方式不同寻常,因为有效价格会便宜得多!
为了消除这种模糊性,OpenRouter现在在模型页面上有一个有效价格表,考虑了缓存命中节省的成本。
以下是各提供商通过OpenRouter提供DeepSeek V4 Flash的有效定价,每个提供商因缓存读取成本和缓存命中率不同而定价不同:价格各不相同,但请注意第二行,DeepSeek本身作为提供商,定价高达0.018美元/1M输入token!
那2%的缓存读取确实物有所值。与Hy3 preview进行同类比较,SiliconFlow模型页面上指出的Hy3 preview有效定价(高达44%的缓存读取成本)为0.034美元/1M:几乎是DeepSeek提供的DeepSeek V4 Flash的两倍!
当然,这仅适用于明确使用DeepSeek作为提供商的情况,一些下游OpenRouter客户端/代理可能不支持:OpenRouter的价格与DeepSeek直接提供的价格相匹配,因此使用直接的DeepSeek API密钥效果相同。
还有一个显而易见的问题:DeepSeek是一家中国公司。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。