Anthropic发布Claude Skills:大模型能力扩展的未来形态

Claude Skills通过简洁Markdown和脚本,让大模型轻松获取新能力,比复杂协议更高效实用。

原文标题:“Claude Skills很棒,可能比 MCP 更重要”

原文作者:AI前线

冷月清谈:

Anthropic 推出的 Claude Skills 是一种帮助模型获取新功能的模式,它以简洁的Markdown文件、可选脚本和资源文件夹为核心,允许Claude模型在需要时按需加载特定任务的执行能力。文章首先介绍了Skills的原理,即包含指令、脚本和资源的目录,例如用于文档生成和Slack GIF创建。Skills在成本效益上表现出色,仅在初次扫描时占用少量token,只有在调用时才加载完整信息。

Skills的强大之处在于其依赖于编码环境,允许模型访问文件系统、执行命令,这使其有别于功能受限的MCP(模型上下文协议)和ChatGPT插件。作者认为Claude Code的真正价值在于作为通用型计算机自动化工具,而Skills的出现进一步强化了这一特性。文章通过“数据新闻智能体”的设想,展示了Skills巨大的应用想象空间。

在与MCP的对比中,Skills因其极高的token效率和简洁的设计理念而更具优势。MCP复杂的协议定义消耗大量上下文token,而Skills则通过描述如何执行任务,或者引入额外脚本来确保可靠性,这使得模型能够更高效地处理任务。文章还强调了Skills易于共享的特点,并预言其将引发一个“寒武纪大爆发”式的生态。最终,作者总结Skills的成功在于其天然的简洁性,将复杂性留给大模型框架,而自身保持轻量化,这是一种更现实、更明智的大模型工具集成探索方向。

怜星夜思:

1、文章提到Skills依赖于编码环境并能执行脚本,这在极大提升模型能力的同时,也带来了潜在的安全风险。大家认为,在广泛推广和共享Skills时,如何才能有效地保障用户的数据安全和系统稳定,避免恶意Skills带来的危害?社区和Anthropic可以做些什么?
2、文章预测Skills生态将迎来“寒武纪大爆发”,比MCP更具潜力。除了文章中提到的“数据新闻智能体”,大家还能想到哪些基于Skills组合,能实现出乎意料或者变革性功能的“AI智能体”?这些智能体可能会在哪些领域率先落地?
3、文章中提到,Skills的优势在于其“简单才是关键”,它仅仅是Markdown文本加上少量YAML元数据和可选脚本。这种“返璞归真”的设计理念,对我们理解未来大模型如何集成外部工具或者扩展自身能力,有什么启发?你认为这种趋势会带来哪些挑战?

原文内容

作者 | Simon Willison
译者 | 核子可乐
策划 | 褚杏娟

今天早上,Anthropic 发布了 Claude Skills,这是一种助其模型获取新功能的全新模式:

  • Claude 现可使用 Skills 改进模型执行特定任务的方式。Skills 的实质是包含指令、脚本与资源的文件夹,Claude 模型可在需要时加载这些资源。

  • Claude 只会在 Skill 与当前任务相关时才会加以调用。在使用 Skill 之后,Claude 将可更好地完成特定任务,例如使用 Excel 或遵循组织内部的品牌指南。

相关文档:

Skills 说明文档:https://docs.claude.com/en/docs/agents-and-tools/agent-Skills/overview

Claude Skills Cookbook:https://github.com/anthropics/claude-cookbooks/tree/main/Skills

Skill 是一个包含 SKILL.md 文件的目录,该文件包含为代理提供附加功能的指令、脚本和资源的组织文件夹。

Skills 的概念非常简单。Skill 就是一个 Markdown 文件,用于告诉模型如何执行某项操作,同时允许附带额外的文档和预先编写的脚本。通过运行这些脚本,模型即可顺利完成 Skill 描述的任务。

Claude 的全新文档生成功能(与新的代码解释器功能于今年 9 月一同推出)就完全通过 Skill 来实现。这些功能现已被纳入 Anthropic 代码库,涵盖.pdf、.docx、xlsx 以及.pptx 文件。

除了磁盘上的一堆文件以外,这项功能中还有另一个重要细节。在会话开始时,Claude 的各种工具会扫描所有可用的 Skill 文件,并从 Markdown 文件的前置 YAML 中读取各文件的简短说明。这种方式具有极高的成本效益:每 Skills 仅占用几十个额外 token,只有在用户请求该 Skill 以协助解决任务时才需要加载完整详情。

上手尝试

下面,我们看看 Anthropic 发布的 slack-gif-creator skill 示例的元数据:

此工具包用于创建专为 Slack 优化的 GIF 动图,包含尺寸约束验证器加可组合动画元件。当用户通过“为我制作一个某人正在做某事的 Slack GIF”描述请求生成适用于 Slack 的 GIF 动图或表情符号动画时,即可使用此 skill。

我本人在 Claude 移动端 Web 应用中试用了此 skill,搭配的模型是 Sonnet 4.5。我先在设置中启用了 slack-gif-creator skill,而后向系统输入提示词:

为我生成一个发往 Slack 的 GIF 动图,表明 Skills 比 MCP 酷得多。

Claude 随后生成了以下 GIF:

好吧,这个动图实在不咋样。但 Skills 的一大优势在于容易迭代改进。以下是它编写的 Python 脚本中的重要代码片段,注释部分是我自己加上的:

# 首先将 skill 目录添加至 Python 路径
import sys
sys.path.insert(0, '/mnt/Skills/examples/slack-gif-creator')
from PIL import Image, ImageDraw, ImageFont
# 此类位于 skill 的 core/ 目录之下
from core.gif_builder import GIFBuilder
# ... 构建 GIF 动图的代码 ...
# 将结果保存至磁盘:
info = builder.save('/mnt/user-data/outputs/Skills_vs_mcps.gif',
                    num_colors=128,
                    optimize_for_emoji=False)
print(f"GIF created successfully!")
print(f"Size: {info['size_kb']:.1f} KB ({info['size_mb']:.2f} MB)")
print(f"Frames: {info['frame_count']}")
print(f"Duration: {info['duration_seconds']:.1f}s")
# 使用 check_slack_size() 函数确保文件足够小,适用于 Slack 发送:
passes, check_info = check_slack_size('/mnt/user-data/outputs/Skills_vs_mcps.gif', is_emoji=False)
if passes:
    print("✓ Ready for Slack!")
else:
    print(f"⚠ File size: {check_info['size_kb']:.1f} KB (limit: {check_info['limit_kb']} KB)")

整个过程非常简洁。Slack GIF 的最大体积不会超过 2 MB,因此该 Skill 中包含一条验证函数,模型可使用它来检查文件大小。如果尺寸太大,模型会尝试进一步缩小。

Skills 依赖编码环境

Skills 机制的实现,依赖于模型能够访问文件系统、是否具备导航工具以及在该环境下执行命令的能力。

这也是当前大模型工具的常见模式。2023 年初发布的 ChatGPT 代码解释器就是典型案例,这种向本地机器扩展的模式随后在 Cursor、Claude Code、Codex CLI 和 Gemini CLI 等编码智能体工具中均得到应用。

这项特质也成为 Skills 同之前其他大模型扩展(例如 MCP 和 ChatGPT 插件)之间的最大区别。但作为重要的依赖项,Skills 释放出的新功能之多也让不少朋友感到困惑。

Skills 既强大又易于创建,因此必须想办法为大模型提供更加安全的编码环境。虽然在提示词中强调安全也有一定效果,但我们最好能够弄清楚如何将运行环境沙箱化,以便将提示词注入等攻击限制在可接受的损害范围之内。

Claude Code 充当通用智能体

今年 1 月,我曾对 AI/ 大模型做过一些极端测试,并认定智能体会像之前的其他成果一样陷入失败:我认为 2025 年将有更多关于智能体的泡沫破裂,让大部分对于这个术语感到兴奋的朋友们大失所望,而以此为基础延伸出的投资项目也将蒙受重大损失。

但事实证明我完全错了,2025 年无疑是真正的“智能体”之年。

只能说 Claude Code 这个名字起得不太好。它不仅仅是一款编码工具,更是一款通用型计算机自动化工具。以往任何可以通过输入命令来实现的功能,现在都可以通过 Claude Code 自动完成。因此我们可以把它视为一种通用智能体,而 Skills 的出现更加支撑起这一结论。

我发现 Skills 的想象空间真的非常巨大。比如说,我们可以设置一个装满 Skills 的文件夹,从容处理以下任务:

  • 获取人口普查数据并分析其结构。

  • 使用合适的 Python 库将不同格式的数据加载进 SQLite 或 DuckDB。

  • 将数据在线发布为 S3 存储桶内的 Parquet 格式文件,或以表格形式推送至 Datasette Cloud。

  • 由经验丰富的数据报告 skill 快速从一组新数据中发现有趣的故事。

  • 由另一 Skill 使用 D3 构建出清晰易读的数据可视化结论。

恭喜各位,这样就构建了一个“数据新闻智能体”,它可以发现并协助发布针对最新人口普查数据的新闻。而整个实现,依靠的就只是一个装满 Markdown 文件和 Python 示例脚本的文件夹。

Skills 与 MCP 的对比

自去年 11 月首次发布以来,模型上下文协议(MCP)就引起了巨大关注。我总是开玩笑说,它之所以能火起来,是因为每家公司都知道自己需要一套“AI 战略”。而构建或者发布自己的 MCP 实现,是达成这个目标的最简单方法。

可随着时间推移,MCP 的局限性也开始显现。其中最显著的一点是对 token 的大量消耗:众所周知,GitHub 官方 MCP 本身就消耗了巨量上下文 token,而这种消耗量越大,大模型自身就越是没有发挥实际作用的空间。

自从开始认真使用编码智能体以来,我对 MCP 的兴趣开始逐渐消退。因为我发现几乎一切原本需要 MCP 实现的功能,现在都可以用 CLI 工具来解决。大模型知道要如何调用 cli-tool –help,因此我们不再需要耗费大量 token 来描述如何使用——模型会在必要时自行处理。

Skills 也拥有同样的优势,而且让我甚至不再需要亲自实现新的 CLI 工具。我可以直接用 Markdown 文件来描述如何完成任务,并在必须确保可靠性或效率时引入额外脚本。

Skills 来了

Skills 最令人兴奋的一点,就是其非常易于共享。我预计将有大量 Skills 以单文件形式实现——更复杂的 Skills 则采取文件夹形式以包含更多文件。

我也在思考自己可以构建哪些 Skill,比如怎么开发一款 Datasette 插件。

Skills 设计的另一大优势,在于它能跟其他模型配合使用。

我们可以先准备一个 Skills 文件夹,再将 Codex CLI 或者 Gemini CLI 指向它,然后要求“读取 pdf/SKILL.md 文件,再为我创建一个描述此项目的 PDF 文件”。这样哪怕工具和模型本身并不具备系统性的 skill 知识,整个流程也可以正常起效。

我相信后续会迎来 Skills 生态的寒武纪大爆发,相比之下甚至今年的 MCP 热潮都显得平淡无奇。

简单才是关键

也有人对 Skills 表达了反对,认为它们太过简单、几乎算不上什么高级功能。

还有人尝试将更多指令直接放进 Markdown 文件,并要求编码智能体在执行任务之前先读取该文件。比如 AGENTS.md 就已经成为成熟模式,其文件已经可以包含“在尝试创建 PDF 之前先读取 PDF.md 内容”的指令。

但 Skills 的这种天然简洁性,正是让我如此兴奋的原因所在。

MCP 是一套完整的协议规范,涵盖主机、客户端、服务器、资源、提示词、工具、采样、根目录、启发和三种不同的传输方式(stdio、流式传输 HTTP 和 SSE)。

而 Skills 却仅仅就是 Markdown 文本,再加上少量 YAML 元数据和一些可选脚本,能够在任何环境下运行。它们其实更接近大模型的精髓——提供一些文本,然后让模型自行解决问题。

Skills 将复杂部分全都甩给了大模型框架和相应计算机环境。纵观过去几年间我们对于大模型运行工具的认识,这也许才是最明智、最具现实意义的探索方向。

原文链接:

https://simonwillison.net/2025/Oct/16/claude-Skills/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

欢迎扫码关注我的微信视频号~

会议推荐

10 月 23 - 25 日,QCon 上海站即将召开,95+ 精彩议题已上线!快来锁定参会席位,详情可联系票务经理 18514549229 咨询。

今日荐文

图片

你也「在看」吗?👇

我觉得这就像编程语言从低级到高级的发展,我们不再需要关注底层复杂的机器码,而是用更贴近人类语言的方式编写代码。Skills的出现,就是让大模型能以最“人话”的方式去理解和使用工具。这意味着未来大模型学习新工具的成本会大大降低,就像我们读一本说明书就能用一个新电器一样。挑战嘛,可能是随着Skills越来越多,如何进行有效的版本管理和冲突解决会是个大问题。想象一下,两个Skills都想用同一个文件,但操作方式不一样,那场面岂不乱套了?还有就是,这么简单的接口,会不会让一些“低质量” Skills泛滥?

关于Skills的安全问题,我觉得核心在于建立一个多层次的信任和验证体系。首先,Anthropic应该提供官方的沙盒环境,确保所有第三方Skills在运行前都经过严格的安全审查和隔离。其次,社区可以建立一个Skills的“认证”机制,类似于应用商店里的开发者认证,鼓励开发者开源其Skill代码,并由其他资深开发者进行代码审计和评分。最后,用户自身也要提高警惕,只安装来源可靠、评价良好的Skills,并且在非敏感环境下先行测试。安全攻防是一个持续的过程,需要平台、开发者和用户共同努力。

从技术角度看,沙箱化(Sandboxing)是基础。这意味着每个Skill都在一个隔离的环境中运行,即使出现恶意代码,也无法影响宿主系统。同时,可以借鉴容器化技术(如Docker),为每个Skill分配有限的资源和访问权限。对于用户侧,应提供清晰的权限请求界面,让用户明确知道某个Skill需要访问哪些资源。此外,引入类似于浏览器的内容安全策略(CSP)或者WebAssembly作为执行环境,也能在一定程度上限制脚本的潜在危害。长远来看,构建一个基于零信任原则的Skill加载和执行框架至关重要。

既然提到了“数据新闻智能体”,那我觉得“智能科研助理”未来肯定能大放异彩。想象一下,一个AI智能体能够通过Skills组合实现:自动抓取最新论文、摘要并归类;根据指定主题在多个数据库中交叉检索、分析数据;甚至能调用实验模拟Skills进行初步的参数调整和结果预测;最后还能用“报告生成Skills”自动撰写初步的科研综述。这简直是科研工作者的福音,可以把大量重复性工作交给AI,让他们专注思考更深层次的问题。生命科学、材料科学这种数据量巨大的领域可能会率先落地。

从系统设计的角度看,这种“简单”设计体现了“关注点分离”的原则。大模型专注于其核心能力——理解、推理和生成,而具体的工具调用和操作细节则通过Skills解耦出去。这种松耦合的架构,使得系统更加灵活、可扩展,并且易于维护。未来,我们可能会看到更多基于声明式配置而非硬编码逻辑的大模型扩展方式。然而,这种趋势也带来了新的挑战:如何确保Skills的语义清晰无歧义?当存在多个功能相似的Skills时,大模型如何智能选择最佳的那个?以及如何建立一套健壮的Skills依赖管理和安全审计机制,以应对潜在的互操作性问题和漏洞?

结合Skills的通用自动化能力,我认为“企业运营优化智能体”将是极具价值的方向。例如,一个智能体能够结合CRM数据分析Skills、营销内容生成Skills和财务预测Skills。它能自动识别潜在高价值客户,根据客户画像自动生成个性化营销邮件或广告文案,并通过“预算优化Skills”智能分配广告投放,同时实时监控市场反馈并调整策略。这不仅能极大提升营销效率,还能根据实时数据进行财务风险评估和预测,帮助企业做出更明智的决策。在数字化转型较成熟的电商、金融和咨询领域,这样的智能体应该能很快找到用武之地。

我脑洞一下,来个“数字生活管家”怎么样?它能整合天气预报Skills、智能家居控制Skills、日程管理Skills和购物清单Skills。早上起来,它能根据我的日程和天气,自动调整家里的温度、冲好咖啡,然后给我语音播报今天的重要事项,甚至提醒我路上堵车,建议我提前出门。晚上回家了,它可以根据我冰箱里现有的食材,结合我的口味偏好,推荐菜谱并自动下单缺少的食材。这不就是电影里的人工智能助理嘛,让生活变得无缝又智能!

“简单才是关键”的理念,给我的最大启发是:大模型不需要成为一个“万能的瑞士军刀”,它更应该是一个“连接万物的智能大脑”。通过Skills这种极致简洁的接口,大模型可以根据任务动态调用外部工具,而不是试图把所有工具内置。这就像AI的“乐高积木”,每个人都可以用最基础的零件组装出无穷无尽的功能。这种趋势挑战在于,如何保证这些“乐高积木”的标准化和兼容性,以及如何管理和发现海量的Skills,避免信息过载。毕竟,简单的接口需要强大的后台支撑才能真正发挥作用。

说到安全,我首先想到的就是权限管理。Skills能不能像手机App一样,只能申请它完成任务所必须的最小权限?比如一个制作GIF的Skills,就只能访问图形处理库和输出目录,不能随便读写用户的其他文件。然后Anthropic可以提供一个“Skills商店”之类的平台,所有上传的Skills都必须经过官方的自动化安全扫描和人工审核。当然,我们这些尝鲜的用户,也要有颗“小白鼠”的心,遇到可疑的Skills,就要及时上报,帮助社区一起完善安全体系。哎,为了尝鲜,总是要冒点风险的嘛!