一款神秘的人工智能模型让开发者们议论纷纷:这会是 DeepSeek 的最新力作吗?
DeepSeek标志
官方称,尽管美国禁止使用英伟达芯片,但中国DeepSeek仍利用该芯片训练了人工智能模型。
北京,3月18日(路透社)——上周,一款强大的AI模型匿名出现在一个开发者平台上,引发了人们的猜测,认为中国初创公司DeepSeek可能正在悄悄测试其下一代系统,为正式发布做准备。
这款名为 Hunter Alpha 的免费模型于 3 月 11 日出现在 AI 网关平台 OpenRouter 上,没有任何开发者署名,后来被该平台描述为“隐形模型”。
在路透社进行的测试中,Hunter Alpha 聊天机器人自称是“主要用中文训练的中国人工智能模型”,并表示其训练数据延伸至 2025 年 5 月,这与 DeepSeek 自己的聊天机器人报告的知识截止点相同。
然而,当被问及创建者时,该系统拒绝透露开发者的身份。
“我只知道我的名字、我的参数尺度和我的上下文窗口长度,”聊天机器人说。
DeepSeek 和 OpenRouter 均未透露该模型的创建者身份,也未回应置评请求。
Hunter Alpha 的资料页面将其描述为一个拥有 1 万亿个参数的模型,这意味着它使用了大约 1 万亿个可调参数值进行训练,这些参数值决定了系统如何处理语言并生成响应。通常,参数越多的模型需要更强大的计算能力才能运行。
该系统还宣称其上下文窗口最大可达一百万个词元,这衡量的是人工智能模型在单次交互过程中能够处理或记忆的文本量。一个词元大致对应于一小段文本,例如单词的一部分。
“Hunter Alpha 最突出的特点是它拥有 100 万个代币的上下文,再加上推理能力和免费访问权限,”构建人工智能代理系统的工程师 Nabil Haouam 说。
“大多数具有这种背景窗口的前沿模型在大规模应用时都会带来实际成本,”他补充道。
这些规格与当地媒体对DeepSeek下一代V4机型的预期相符,据中国媒体报道,该机型最早可能在4月份发布。DeepSeek与许多中国竞争对手一样资金雄厚,但其结构较为特殊,因为其母公司是一家量化对冲基金,而非科技集团。
虽然这种重叠并不能建立直接联系,但它加剧了开发者们的猜测,即匿名系统可能是 DeepSeek 即将发布的版本的早期测试版。
“思维链模式可能是最强烈的信号,”人工智能工程师丹尼尔·德赫斯特在模型发布后对其进行了分析,他指的是人工智能模型的推理方式。
“推理风格很难掩饰,而且往往反映出模型的训练方式。”
他还表示,Hunter Alpha 的规模和内存容量也与今年年初以来流传的 DeepSeek V4 的规格相符。
不过,一些开发者也提醒说,将该模型与 DeepSeek 联系起来的证据尚无定论。
“我的分析表明,Hunter Alpha 可能不是 DeepSeek V4,”独立人工智能基准测试员 Umur Ozkul 表示,他指出 Hunter Alpha 与 DeepSeek 的现有系统在令牌相关行为和架构模式方面存在差异。
他表示,考虑到发布的时间和宣传的功能,人们猜测该模型与DeepSeek有关是可以理解的。
开发者测试
匿名模型发布并不罕见,因为像 OpenRouter 这样的平台允许开发者通过单一界面向数十个 AI 模型发送查询,这使得它们成为新系统的热门测试平台。
今年 2 月,一个名为 Pony Alpha 的匿名模型出现在 OpenRouter 上,五天后,中国智普人工智能公司证实它是其 GLM-5 系统的一部分。
Hunter Alpha 的个人资料页面上的一则通知称,该模型的所有提示和完成情况“均由提供商记录,并可能用于改进模型”,这凸显了行业普遍采用的秘密模型发布方式,以获得公正的反馈。
根据 OpenRouter 的统计数据,该模型在平台上出现后迅速被采用,截至周日已处理超过 1600 亿个代币。
大部分活动来自软件开发工具和人工智能代理框架,例如 OpenClaw,它们允许人工智能系统自主规划任务并与外部软件交互。
|