2025年的某一天,我在写一个自动化工作流。代码量很少——只有几十行。但真正让我惊讶的不是代码本身,而是我用Markdown标记了一个技能规范,然后一个AI Agent读懂了它,并且正确执行了。
那一刻我突然意识到:编程的语法正在发生变化。
不是Python取代JavaScript那种变化。而是更底层的东西——人类表达意图的方式,正在从"写命令"变成"写标记"。
从"写代码"到"写标记":
一场静悄悄的革命
程序员对这个过程并不陌生。HTML刚出来的时候,很多传统软件工程师是看不起的——"这算什么编程语言?连循环都没有!"但后来发生的事情我们都知道了:标记语言(Markup Language)改变了整个互联网。
现在,历史正在重演。只不过这一次的主角是AI。
让我给你看一个真实的例子。下面是一段"代码"——但它既不是Python,也不是JavaScript:
name: skill-builder description: 从零创建可执行的AI技能 trigger: 创建技能 / 生成skill / 帮我做一个新的能力 steps: - analyze: 理解用户需求,提炼技能名称和触发词 - draft: 撰写SKILL.md规范 - test: 生成测试用例验证触发逻辑 - deploy: 打包发布到skills目录
这就是SKILL.md——我日常工作中使用的技能规范格式。它的本质,是一个用标记语言定义的AI可执行工作流。
当我把这套规范交给AI,AI不仅理解了我的意图,还知道怎么执行、什么时候触发、以及失败之后如何汇报。
这不是在"调用API"。这是在用人类语言写程序,然后用另一个AI去解释它。
三种形态:标记语言式
AI技能的全景图
根据我的观察,标记语言式AI技能目前有三个主要流派:
配置式
用JSON/YAML定义工具边界。AI不是被"编程"出来的,而是被"配置"出来的。
指令式
用自然语言加结构化标记,描述一个完整的AI行为模式。
文档式
直接把文档变成可执行的代码。结构化知识让AI能够理解和操作。
Config配置式(Config-Driven)
代表:Anthropic的MCP(Model Context Protocol)、OpenAI的Function Calling
这类工具的本质是:用JSON/YAML定义工具边界。AI不是被"编程"出来的,而是被"配置"出来的。
{
"name": "image_generator",
"description": "生成AI图片",
"parameters": {
"prompt": { "type": "string", "description": "图片描述" },
"size": { "type": "string", "enum": ["16:9", "1:1", "9:16"] }
}
}
程序员不需要写图片生成算法,只需要定义"这个工具叫什么、接受什么参数、返回什么结果"。AI负责理解场景,选择合适的工具,组装成完整的工作流。
这像什么?像HTML——你不需要懂浏览器内部原理,只需要用标签描述页面结构,浏览器负责渲染。
Instruction指令式(Instruction-Driven)
代表:SKILL.md、我之前提到的各类AI技能规范
这类规范的本质是:用自然语言加结构化标记,描述一个完整的AI行为模式。
触发词是什么?执行步骤是什么?边界在哪里?失败策略是什么?
这些问题,以前需要程序员写一套完整的if-else逻辑。现在只需要几段标记清晰的文字。
可读性极强——一个不了解代码的人,读完SKILL.md也能理解这个技能在做什么。维护成本大幅下降。
Document文档式(Document-Driven)
代表:Notion AI、Claude的Artifacts、各种RAG系统
这是最"软"的一种形态——直接把文档变成可执行的代码。
一个PRD文档,AI可以提取其中的需求逻辑,自动生成对应的代码框架。一个API文档,AI可以理解接口规范,写出正确的调用代码。
这不是什么魔法。本质上是:把结构化的知识,用标记语言组织起来,让AI能够理解和操作。
为什么是现在?
底层逻辑解析
标记语言式编程不是一个新概念。但它之所以在2025-2026年爆发,有三个驱动力:
LLM的理解能力跨越了临界点
2023年之前的AI,"听懂人话"这件事做得并不好。你需要非常精确的措辞,AI才能正确执行。
2025年之后,主流大模型对结构化指令的理解准确率已经超过95%。这意味着什么?意味着你可以用自然语言加少量标记,代替过去需要大量代码才能实现的控制流。
不是AI变聪明了。是你可以用更少的话,表达更复杂的意思了。
Token成本持续下降
标记语言的代价是冗余——相比精简的代码,YAML/JSON天然会消耗更多Token。
但Token价格在持续下跌。2023年GPT-4的Token成本,到2026年已经跌了超过100倍。用更多Token换取更低的开发成本,这件事变得完全划算了。
协作范式的转变
传统的软件开发是:人→代码→机器。
AI时代的开发是:人→标记→AI→代码→机器。
中间多了一个AI理解层。这个层的输入格式,决定了协作效率。而标记语言,恰好是这个层的最优解——它既能被人类读写,又能被AI解析,还具备跨平台跨模型的一致性。
实战案例:从需求到技能
只需要30分钟
说了这么多理论,来一个真实的操作演示。
场景:我想给团队添加一个"会议纪要生成"的能力。不需要写一行Python。
定义触发词
描述输入输出
定义执行流程
添加边界条件
测试迭代
用三段不同类型的会议记录测试,调整标记规范,直到输出稳定。
整个过程,代码量:0行。标记量:约200行Markdown。这就是标记语言式AI技能的魅力——你不需要会写代码,你需要会写"说明书"。
对程序员意味着什么
看到这里,有些同行可能已经开始焦虑了:这是不是意味着程序员要失业了?
我的判断是:恰恰相反。
标记语言式编程,实际上提高了对"系统设计能力"的要求。
以前你写代码,最核心的技能是"语法"——能不能写出来。
现在你写规范,最核心的技能是"抽象"——能不能想清楚。
想不清楚的东西,用标记语言也写不清楚。AI能执行的前提,是人类自己对任务有足够清晰的理解。
AI负责执行,人类负责思考。
这不是分工的简化,而是分工的升级。
未来展望:标记语言会成为
新的"世界语"吗?
我有一个大胆的预测:
5年后,标记语言式规范会成为人机协作的"普通话"。
就像HTML统一了网页内容的表达方式一样,某种标记语言规范会统一AI技能的表达方式——技能可以被跨平台使用、跨模型执行、跨团队共享。
这一天,可能比我们想象的来得更快。
回到开头那个让我顿悟的瞬间。
我在写一段SKILL.md的时候,突然意识到:代码的边界正在消融。不是代码消失了,而是代码的定义在扩展——从"机器指令",到"结构化意图表达"。
HTML没有让软件工程师失业,它创造了一个更大的生态。
标记语言式的AI技能,也不会让程序员消失。它会把我们从"搬砖"中解放出来,去做更核心的事:定义问题,设计系统,表达意图。
至于编程语言——Python、JavaScript还会存在,就像C语言还在。但真正定义未来的,可能是那些看起来"不像代码"的代码:YAML、JSON、Markdown、SKILL.md。
准备好用"标记语言"编程了吗?
📖 扫码收听全文朗读版
约6分钟,配合音频阅读体验更佳
长按识别二维码,收听全文