AI · Markup · Future

当AI开始说"标记语言"

从HTML到SKILL.md,为什么标记语言成了AI时代的"新代码"

向下阅读

2025年的某一天,我在写一个自动化工作流。代码量很少——只有几十行。但真正让我惊讶的不是代码本身,而是我用Markdown标记了一个技能规范,然后一个AI Agent读懂了它,并且正确执行了

那一刻我突然意识到:编程的语法正在发生变化

不是Python取代JavaScript那种变化。而是更底层的东西——人类表达意图的方式,正在从"写命令"变成"写标记"

01

从"写代码"到"写标记":
一场静悄悄的革命

程序员对这个过程并不陌生。HTML刚出来的时候,很多传统软件工程师是看不起的——"这算什么编程语言?连循环都没有!"但后来发生的事情我们都知道了:标记语言(Markup Language)改变了整个互联网

标记语言革命
SKILL.md — 用标记语言定义AI可执行工作流

现在,历史正在重演。只不过这一次的主角是AI。

让我给你看一个真实的例子。下面是一段"代码"——但它既不是Python,也不是JavaScript:

SKILL.md
name: skill-builder
description: 从零创建可执行的AI技能
trigger: 创建技能 / 生成skill / 帮我做一个新的能力
steps:
  - analyze: 理解用户需求,提炼技能名称和触发词
  - draft: 撰写SKILL.md规范
  - test: 生成测试用例验证触发逻辑
  - deploy: 打包发布到skills目录

这就是SKILL.md——我日常工作中使用的技能规范格式。它的本质,是一个用标记语言定义的AI可执行工作流。

当我把这套规范交给AI,AI不仅理解了我的意图,还知道怎么执行、什么时候触发、以及失败之后如何汇报。

这不是在"调用API"。这是在用人类语言写程序,然后用另一个AI去解释它

02

三种形态:标记语言式
AI技能的全景图

根据我的观察,标记语言式AI技能目前有三个主要流派:

形态一

配置式

Config-Driven

用JSON/YAML定义工具边界。AI不是被"编程"出来的,而是被"配置"出来的。

形态二

指令式

Instruction-Driven

用自然语言加结构化标记,描述一个完整的AI行为模式。

形态三

文档式

Document-Driven

直接把文档变成可执行的代码。结构化知识让AI能够理解和操作。

Config配置式(Config-Driven)

配置式技能
JSON/YAML定义工具边界 — AI被"配置"而非"编程"

代表:Anthropic的MCP(Model Context Protocol)、OpenAI的Function Calling

这类工具的本质是:用JSON/YAML定义工具边界。AI不是被"编程"出来的,而是被"配置"出来的。

JSON
{
  "name": "image_generator",
  "description": "生成AI图片",
  "parameters": {
    "prompt": { "type": "string", "description": "图片描述" },
    "size": { "type": "string", "enum": ["16:9", "1:1", "9:16"] }
  }
}

程序员不需要写图片生成算法,只需要定义"这个工具叫什么、接受什么参数、返回什么结果"。AI负责理解场景,选择合适的工具,组装成完整的工作流

💡

这像什么?像HTML——你不需要懂浏览器内部原理,只需要用标签描述页面结构,浏览器负责渲染。

Instruction指令式(Instruction-Driven)

代表:SKILL.md、我之前提到的各类AI技能规范

这类规范的本质是:用自然语言加结构化标记,描述一个完整的AI行为模式

触发词是什么?执行步骤是什么?边界在哪里?失败策略是什么?

这些问题,以前需要程序员写一套完整的if-else逻辑。现在只需要几段标记清晰的文字。

可读性极强——一个不了解代码的人,读完SKILL.md也能理解这个技能在做什么。维护成本大幅下降。

Document文档式(Document-Driven)

文档式技能
文档 → AI理解 → 代码框架 — 把结构化知识组织起来让AI操作

代表:Notion AI、Claude的Artifacts、各种RAG系统

这是最"软"的一种形态——直接把文档变成可执行的代码

一个PRD文档,AI可以提取其中的需求逻辑,自动生成对应的代码框架。一个API文档,AI可以理解接口规范,写出正确的调用代码。

这不是什么魔法。本质上是:把结构化的知识,用标记语言组织起来,让AI能够理解和操作

03

为什么是现在?
底层逻辑解析

标记语言式编程不是一个新概念。但它之所以在2025-2026年爆发,有三个驱动力:

驱动力一

LLM的理解能力跨越了临界点

2023年之前的AI,"听懂人话"这件事做得并不好。你需要非常精确的措辞,AI才能正确执行。

2025年之后,主流大模型对结构化指令的理解准确率已经超过95%。这意味着什么?意味着你可以用自然语言加少量标记,代替过去需要大量代码才能实现的控制流。

不是AI变聪明了。是你可以用更少的话,表达更复杂的意思了。

驱动力二

Token成本持续下降

标记语言的代价是冗余——相比精简的代码,YAML/JSON天然会消耗更多Token。

但Token价格在持续下跌。2023年GPT-4的Token成本,到2026年已经跌了超过100倍。用更多Token换取更低的开发成本,这件事变得完全划算了。

驱动力三

协作范式的转变

传统的软件开发是:人→代码→机器

AI时代的开发是:人→标记→AI→代码→机器

协作链路对比
代码
机器
传统
标记
AI
代码
机器
AI时代

中间多了一个AI理解层。这个层的输入格式,决定了协作效率。而标记语言,恰好是这个层的最优解——它既能被人类读写,又能被AI解析,还具备跨平台跨模型的一致性

协作链路演变
协作范式转变 — 人→标记→AI→代码→机器
04

实战案例:从需求到技能
只需要30分钟

说了这么多理论,来一个真实的操作演示。

🎯

场景:我想给团队添加一个"会议纪要生成"的能力。不需要写一行Python。

1

定义触发词

触发词:生成会议纪要 / 整理会议要点 / 会议记录
2

描述输入输出

输入:原始会议文本(多人对话记录)
输出:结构化纪要 — 核心决议、待办事项、负责人、截止时间
3

定义执行流程

1. 提取所有发言内容,按主题归类

2. 识别决策性语句("我们决定…"、"共识是…")

3. 提取action items("XXX负责…")

4. 生成摘要段落(100字以内)

5. 格式化输出为结构化文档
4

添加边界条件

— 原始文本少于200字,返回"信息不足"

— 无法识别明确决策,返回"未形成结论"

— 原始文本不超过5000字
5

测试迭代

用三段不同类型的会议记录测试,调整标记规范,直到输出稳定。

📊

整个过程,代码量:0行。标记量:约200行Markdown。这就是标记语言式AI技能的魅力——你不需要会写代码,你需要会写"说明书"

05

对程序员意味着什么

看到这里,有些同行可能已经开始焦虑了:这是不是意味着程序员要失业了?

我的判断是:恰恰相反

标记语言式编程,实际上提高了对"系统设计能力"的要求。

以前你写代码,最核心的技能是"语法"——能不能写出来。

现在你写规范,最核心的技能是"抽象"——能不能想清楚。

想不清楚的东西,用标记语言也写不清楚。AI能执行的前提,是人类自己对任务有足够清晰的理解。

🤝

AI负责执行,人类负责思考。

这不是分工的简化,而是分工的升级。

06

未来展望:标记语言会成为
新的"世界语"吗?

我有一个大胆的预测:

5年后,标记语言式规范会成为人机协作的"普通话"。

就像HTML统一了网页内容的表达方式一样,某种标记语言规范会统一AI技能的表达方式——技能可以被跨平台使用、跨模型执行、跨团队共享。

5年后的世界
🏪 GitHub上会有技能市场
📋 HR在招聘时会要求熟练编写AI技能规范
🎓 大学课堂会开人机协作标记语言这门课

这一天,可能比我们想象的来得更快。

未来展望
5年后,标记语言式规范会成为人机协作的"普通话"

回到开头那个让我顿悟的瞬间。

我在写一段SKILL.md的时候,突然意识到:代码的边界正在消融。不是代码消失了,而是代码的定义在扩展——从"机器指令",到"结构化意图表达"。

HTML没有让软件工程师失业,它创造了一个更大的生态。

标记语言式的AI技能,也不会让程序员消失。它会把我们从"搬砖"中解放出来,去做更核心的事:定义问题,设计系统,表达意图

至于编程语言——Python、JavaScript还会存在,就像C语言还在。但真正定义未来的,可能是那些看起来"不像代码"的代码:YAML、JSON、Markdown、SKILL.md

准备好用"标记语言"编程了吗?

📖 扫码收听全文朗读版

约6分钟,配合音频阅读体验更佳

二维码

长按识别二维码,收听全文