发布日期: 2025-06-29
Anthropic 公司 CEO Dario Amodei 于周四颁发了一篇作品,指出磋商职员对待环球领先 AI 模子内部运作的懂得特别有限。为懂得决这一题目,Amodei 为 Anthropic 设定了一个野心勃勃的对象,即到 2027 年不妨牢靠地出现大大都 AI 模子的题目。
Amodei 招供前道充满挑衅。正在 The Urgency of Interpretability 一文中,这位 CEO 吐露,Anthropic 一经正在追踪模子若何取得谜底方面博得了早期打破——但他夸大,跟着体系变得加倍健壮,需求实行更众磋商来解读这些体系。
正在没有更好地剖析其可讲明性之前,我特别忧郁安放这种体系, Amodei 正在作品中写道。 这些体系将对经济、身手和邦度太平起到绝对主旨的影响,而且具有这样高度的自决性,乃至于我以为人类对它们的运作道理全无所闻是所有弗成给与的。
Anthropic 是正在呆滞可讲明性周围的前驱公司之一,该周围旨正在揭开 AI 模子黑箱,剖析它们为何做出特定计划。只管科技行业的 AI 模子正在本能上速捷晋升,但咱们对这些体系若何做出计划仍知之甚少。
比方,OpenAI 迩来推出了新的推理 AI 模子 o3 和 o4-mini,正在某些工作上的浮现更优秀,但它们出现假造内容的环境也比其他模子更众。该公司尚未弄大白由来所正在。
当一个天生式 AI 体系实行某项工作时,比方总结一份财政文献,咱们正在详细、准确的层面上所有无法讲明它为何会做出这些采选——为什么它会采选某些词语而不是其他词语,或为何正在凡是确凿的环境下权且涌现过失, Amodei 正在作品中写道。
正在作品中,Amodei 援用了 Anthropic 连结创始人 Chris Olah 的见解,他以为 AI 模子是 更众是滋长出来而非被筑制的。换句话说,AI 磋商职员一经找到提升 AI 模子智能的法子,但他们并不所有懂得此中邦因。
Amodei 正在作品中吐露,正在不懂得这些模子若何运作的环境下,到达 AGI——或者如他所称的 数据中央中的天禀邦家——大概会带来损害。正在之前的一篇作品中,Amodei 曾声称科技行业希望正在 2026 或 2027 年到达这一里程碑,但他以为咱们正在彻底剖析这些 AI 模子方面又有很长的道要走。
从永远来看,Amodei 吐露 Anthropic 愿望基础上不妨对最尖端的 AI 模子实行 脑部扫描 或 MRI 查抄。他称,这些查抄将有助于出现 AI 模子中平常存正在的题目,包含它们撒谎、寻求权利或其他弱点的方向。告竣这一对象大概需求五到十年,但他填补道,这些方法对待测试和安放 Anthropic 将来的 AI 模子将是需要的。
Anthropic 已博得了极少磋商打破,使其对 AI 模子的任务道理有了更深化的懂得。比方,该公司迩来找到了一种法子,不妨通过所谓的 circuits (电道) 追踪 AI 模子的头脑途径。Anthropic 识别出了一条电道,助助 AI 模子剖析哪些美邦都市位于哪些美邦州内。固然该公司只出现了少数几条如许的电道,但它猜想 AI 模子中大概存正在数百万条相似的电道。
Anthropic 从来正在投资于可讲明性磋商,而且迩来初度对一家一心于该周围的草创企业实行了投资。固然目前可讲明性民众被视为太平磋商的一个周围,Amodei 指出,最终讲明 AI 模子若何得出谜底大概会带来贸易上风。
正在作品中,Amodei 召唤 OpenAI 和 Google DeepMind 加大该周围的磋商力度。除了这一友爱的饱舞外,这位 CEO 还召唤各邦政府施加 light-touch (轻触式) 禁锢,以推动可讲明性磋商,比方请求公司公然其太平和保密方法。Amodei 正在作品中还吐露,美邦应对向中邦出口芯片推行管控,以删除环球失控 AI 竞赛的大概性。
Anthropic 从来以对太平的闭心正在 OpenAI 和 Google 中脱颖而出。当其他科技公司对加州有争议的 AI 太平法案 SB 1047 持抗议立场时,Anthropic 对该法案赐与了适度赞成并提出了创议。该法案旨正在为前沿 AI 模子开垦者设定太平陈说圭臬。
正在这种环境下,Anthropic 好像正在饱舞通盘行业合伙勉力,以更好地剖析 AI 模子,而不单仅是晋升它们的才气。