AI Agent 到底是个啥？小白也能看懂的入门指南

发表于 2026-06-21 分类于 AI工具

AI Agent 到底是个啥？小白也能看懂的入门指南

这篇我写了改改了写，主要是之前有读者私信问”Agent 是不是就是能聊天的 AI”，回答了三次后我决定写一篇，让所有小白一次看懂。

一句话结论先行

AI Agent = 能”动手做事”的 AI。

普通 AI 聊天，你问它答；AI Agent，你让它干活，它真去干。

就这么简单。

啥是 Agent？用生活例子讲明白

我打个比方你就懂了。

普通 AI 聊天 像你请了个百科顾问：

你：”北京今天多少度？”
它：”今天 28 度”

问什么答什么，不动手。

AI Agent 像你请了个全能助理：

你：”帮我查北京今天天气，然后发邮件告诉客户张三下午三点开会”
它：自动查天气 → 自动写邮件 → 自动发送 → 告诉你”已搞定”

看出区别了吧？Agent 能自己规划步骤 + 自己执行任务 + 给你汇报结果。

💡 核心区别：聊天 AI 是”动嘴”，Agent 是”动手”。

Agent 的三件套：脑子 + 工具 + 记忆

把 Agent 拆开看，它就三个东西：

1. 脑子（大模型）

就是 ChatGPT、Claude、文心一言这些。它负责理解你的意思 + 规划怎么干。

比如你说”帮我做一份本月销售报表”：

脑子会拆解：1. 查销售数据 2. 处理数据 3. 生成报表 4. 发给老板

2. 工具（手脚）

脑子再聪明，没有手也干不了事。Agent 工具就是它的”手脚”：

🌐 浏览器：自动上网查资料
💻 终端：自动跑命令、写代码
📁 文件操作：读写文档
📧 通讯工具：发邮件、发消息
🔌 API 调用：对接各种在线服务

一个 Agent 能调用的工具越多，它能干的事就越多。

3. 记忆（避免健忘症）

Agent 不会聊完就忘，它有短期记忆和长期记忆：

短期记忆：当前对话聊了啥
长期记忆：你的偏好、历史任务、常用配置

记忆好的 Agent 就像认识你很久的助理，知道你的口味、习惯。

我用 Agent 一年总结的真实经验

光讲理论你可能没感觉，我说我这一年用 Agent 干过的事，你感受下。

第一次用 Agent：真香

最开始我试 Agent 是让它自动整理桌面文件。我说：”把桌面所有 PDF 按类型分类”。

我以为它会卡住，结果 3 分钟搞定：

扫描所有 PDF
按”发票/合同/手册”分类
放进对应文件夹
给我汇报”分了 3 类共 47 个文件”

我当时第一反应是”卧槽真能干活”。

踩过的坑

但 Agent 也不是万能的。这几个坑我踩过：

坑 1：权限太大反而坏事

💥 一开始我给 Agent 全权限，结果它自动清空了一个临时文件夹，把我没保存的工作文件搞没了。

教训：给 Agent 的权限要最小化，能不给的权限别给。删文件、付款、改密码这类高危操作必须人工确认。

坑 2：上下文太长会变笨

💥 让 Agent 写一个长报告，写到后面它开始重复前面的话，逻辑也乱了。

教训：长任务要分步骤或分多次执行，别一次塞太多。

坑 3：它不知道自己的边界

💥 我让它”订个外卖”，它真的去调用支付接口下单了。我还以为它会先问我。

教训：涉及钱、删数据、发消息这类操作，Agent 应该先问你。如果你的 Agent 不问，那是配置问题。

让我最爽的几个用法

踩了坑之后，我现在用 Agent 主要是这几种活儿：

1. 自动化重复劳动（爽度 ⭐⭐⭐⭐⭐）
每天早上 9 点让 Agent 抓 RSS、整理成简报发我邮箱。原本 30 分钟的事，现在 0 分钟。

2. 写代码辅助（爽度 ⭐⭐⭐⭐）
说清楚需求，Agent 写初稿，我再改。比从零写快 3 倍不止。

3. 资料检索（爽度 ⭐⭐⭐⭐）
“帮我搜近一周的 AI 工具更新，整理成 markdown 表格”。比我自己翻强 100 倍。

4. 学习助手（爽度 ⭐⭐⭐）
“用小白能懂的话给我讲讲 Transformer 架构”。它讲的比大部分教程都接地气。

小白入门：从 0 到 1 的实操路径

如果你看完想试，我给小白一个不会踩雷的入门路径：

第一步：先玩现成的

别自己搭 Agent 框架！先用现成的：

ChatGPT 插件（Plus 会员能用）— 内置联网、绘图、代码
Claude Artifacts — 能直接生成网页、文档
国内的话：文心一言、通义千问、智谱清言都有类似功能

目标是：先体会”AI 能动手”的震撼，别上来就搞框架。

第二步：从”一句话任务”开始

别一上来就”帮我管理公司整个客户系统”。从小任务练起：

✅ “帮我把这篇文章翻译成英文”
✅ “把这个表格按销售额排序”
✅ “分析这张图片里的数据”

每个任务完成后看它做对没有。错了就告诉它怎么改。

第三步：连接你自己的工具

等前两步熟了，可以让你的 Agent 连接你的工具：

📧 邮箱（让它帮你起草回复）
📅 日历（让它帮你排日程）
📁 网盘（让它帮你整理文件）
💬 即时通讯（让它帮你发消息提醒）

⚠️ 小白注意：这一步开始涉及你的真实数据，授权范围一定要小。先授权读不授权写，先手动确认再放开。

第四步：搭建自己的工作流

把多个任务串起来：

“每天早上抓 RSS → 筛选重要内容 → 整理成简报 → 发到我的邮箱”

这就是自动化工作流。一旦跑起来，每天为你节省半小时到一小时不等。

选 Agent 工具的几个建议

市面上 Agent 工具一抓一大把，我按场景推荐：

场景	推荐	原因
只想体验	ChatGPT Plus、Claude Pro	不用折腾，开箱即用
想自动化办公	Microsoft Copilot	跟 Office 深度集成
想跑自动化任务	开源 AI 平台	可自定义工具，但需要折腾
国内合规需求	文心一言、智谱清言	数据在国内

选哪个不重要，先用起来才是关键。工具是拿来用的，不是拿来比的。

写在最后

Agent 不是”未来的东西”，它现在就在改变我每天的工作方式。

但也别迷信 Agent。它干得好是”神器”，干得烂是”智障”——关键看你的提示词写得清不清楚，工具配置合不合理。

一句话送给你：Agent 不是替代你做事，而是让你从重复劳动里解脱出来，去做真正需要人类判断的事。

你用 Agent 干过最爽的活儿是啥？评论区聊聊你的骚操作～ ❄️

如果觉得这篇对你有帮助，可以看看我写的另一篇如何用 RSS 订阅给自己搭一个自动简报系统，也是 Agent 应用的经典案例。

飞书 Wiki 空间自动化：从权限获取到批量写入的 7 个实战坑

发表于 2026-06-20 分类于开发工具

想用 API 自动管理飞书 Wiki 空间？你会遇到一连串奇怪的权限和参数问题。本文从权限获取到内容写入，把每个坑的真实原因和解法完整整理出来。

为什么要自动化 Wiki 空间

飞书的 Wiki 空间是团队知识沉淀的核心。但手动维护很麻烦：

想批量创建文档目录
想自动同步外部数据到 Wiki
想把日报 / 监控结果自动生成 Wiki 页面

这些事情靠人工太累，必须用 API。但飞书 Wiki API 的”权限模型 + 参数格式”比普通 Docx API 复杂得多，文档没写明，社区资料也少。

我把整套流程摸通了，记录下来。

第一步：权限获取（90% 的人卡在这里）

误区：以为 API 权限 = 空间权限

很多人以为：在飞书开发者后台开通了 Wiki 相关 API 权限，就能直接操作 Wiki 空间。错。

飞书的 Wiki 空间是独立的权限体系：

应用权限（开发者后台）：能不能调 API
空间成员权限（Wiki 后台）：能不能操作这个空间

两者缺一不可。

正确流程

联系 Wiki 空间管理员（通常是创建者）
让管理员进入 Wiki 空间 → 设置 → 成员管理
把你的应用（app_id）添加为空间管理员或编辑者
拿到这两个 ID：

1 2	空间 ID: 7632282247265029317 (纯数字) 首页 token: XBF5wGQs6iJmNykLRBScM7oAnyc (字母开头)

OAuth scope 的坑

如果你用 user_access_token（OAuth 授权）：

# ❌ 错误：wiki + drive 同时请求会报 20043
scope = "wiki:wiki:read drive:drive:readonly"

# ✅ 正确：分开授权，先 wiki 后 drive
scope = "wiki:wiki:read"
# 第一次授权完，再发起一次 drive 的授权

飞书的设计是：单次 OAuth 不能请求跨产品的 scope。需要分两次授权。

第二步：节点创建（创建目录、文档）

创建目录（根节点）

1	POST https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes

请求体：

{
  "obj_type": "docx",
  "node_type": "origin",
  "title": "我的新目录"
}

返回 node_token，记下来用于后续操作。

创建文档（踩坑点）

很多人尝试在指定目录里直接创建文档：

POST .../wiki/v2/spaces/{space_id}/nodes
Body: {
  "obj_type": "docx",
  "parent_node_token": "父目录token",
  "title": "新文档"
}

报错：权限不足。

原因：创建子节点需要父节点的编辑权限，而你可能只有目录的查看权限。

变通方案

先创建到 space 根目录，再移动到目标目录：

import requests

headers = {"Authorization": f"Bearer {tenant_token}"}

# Step 1: 在根目录创建
resp = requests.post(
    f"https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes",
    headers=headers,
    json={"obj_type": "docx", "node_type": "origin", "title": "新文档"}
)
new_node_token = resp.json()["data"]["node"]["node_token"]

# Step 2: 移动到目标目录
resp = requests.post(
    f"https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes/{new_node_token}/move",
    headers=headers,
    json={
        "target_space_id": space_id,
        "target_parent_token": "目标目录的node_token"
    }
)

第三步：节点移动（又一个踩坑点）

1	POST /wiki/v2/spaces/{space_id}/nodes/{node_token}/move

第一个坑：参数位置

// ❌ 错误：参数放 query string 会报 131002
?target_space_id=xxx&target_parent_token=yyy

// ✅ 正确：参数必须放 JSON body
{
  "target_space_id": "xxx",
  "target_parent_token": "yyy"
}

这个错误信息很模糊，很多人调试半天。

第二个坑：node_token vs obj_token

Wiki API 和 Docx API 用的是不同的 token：

Token 类型	用途	示例
`node_token`	Wiki API（移动、获取节点信息）	`XBF5wGQs6iJmNykLRBScM7oAnyc`
`obj_token`	Docx API（读写文档内容）	不同！要通过 node API 转换

写入文档时用 obj_token，不是 node_token：

# 先通过 Wiki API 获取 node 信息，里面有 obj_token
node_info = requests.get(
    f"https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes/{node_token}",
    headers=headers
).json()
obj_token = node_info["data"]["node"]["obj_token"]

# 再用 obj_token 调 Docx API
requests.put(
    f"https://open.feishu.cn/open-apis/docx/v1/documents/{obj_token}/blocks",
    headers=headers,
    json={"items": [...]}
)

第四步：批量写入（限流处理）

限流错误

批量写内容时频繁遇到 99992402 错误。这是飞书的限流保护。

解决方案：分批 + 间隔

import time

def batch_write_blocks(obj_token, blocks, headers, batch_size=5, interval=0.3):
    """分批写入文档内容"""
    for i in range(0, len(blocks), batch_size):
        batch = blocks[i:i + batch_size]
        resp = requests.put(
            f"https://open.feishu.cn/open-apis/docx/v1/documents/{obj_token}/blocks",
            headers=headers,
            json={"items": batch}
        ).json()

        if resp.get("code") != 0:
            raise Exception(f"写入失败: {resp}")

        time.sleep(interval)  # 关键：每批之间等 0.3 秒

关键参数：

batch_size = 5：每批最多 5 个 block（实测稳定值）
interval = 0.3：每批间隔 0.3 秒（保守值，避免 99992402）

第五步：特殊 Block 类型

飞书文档的 Block 类型比较多，常用的几个：

分割线

{
  "block_type": 22,
  "divider": {}
}

坑：必须带 divider: {}，不能省略（即使它是空对象）。

二级标题

{
  "block_type": 3,
  "heading2": {
    "elements": [{"text_run": {"content": "标题文字"}}],
    "style": {"bold": true}
  }
}

无序列表

{
  "block_type": 12,
  "bullet": {
    "elements": [{"text_run": {"content": "列表项文字"}}]
  }
}

普通段落

{
  "block_type": 2,
  "text": {
    "elements": [{"text_run": {"content": "段落文字"}}]
  }
}

实战封装

把所有步骤串起来，做成一个”创建 Wiki 文档 + 写入内容”的一站式函数：

def create_wiki_doc_with_content(space_id, parent_node_token, title, content_blocks, headers):
    """在指定 Wiki 目录创建文档并写入内容"""
    # 1. 先在根目录创建
    resp = requests.post(
        f"https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes",
        headers=headers,
        json={"obj_type": "docx", "node_type": "origin", "title": title}
    ).json()
    if resp.get("code") != 0:
        raise Exception(f"创建文档失败: {resp}")
    node_token = resp["data"]["node"]["node_token"]

    # 2. 移动到目标目录
    if parent_node_token:
        resp = requests.post(
            f"https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes/{node_token}/move",
            headers=headers,
            json={
                "target_space_id": space_id,
                "target_parent_token": parent_node_token
            }
        ).json()
        if resp.get("code") != 0:
            raise Exception(f"移动文档失败: {resp}")

    # 3. 获取 obj_token
    node_info = requests.get(
        f"https://open.feishu.cn/open-apis/wiki/v2/spaces/{space_id}/nodes/{node_token}",
        headers=headers
    ).json()
    obj_token = node_info["data"]["node"]["obj_token"]

    # 4. 分批写入内容
    batch_write_blocks(obj_token, content_blocks, headers)

    return {
        "node_token": node_token,
        "obj_token": obj_token,
        "url": f"https://feishu.cn/wiki/{node_token}"
    }


# 用法：创建一份今日日报
content_blocks = [
    {"block_type": 3, "heading2": {"elements": [{"text_run": {"content": "今日日报"}}]}},
    {"block_type": 22, "divider": {}},
    {"block_type": 2, "text": {"elements": [{"text_run": {"content": "AI 行业有 3 条重要新闻..."}}]}},
    {"block_type": 12, "bullet": {"elements": [{"text_run": {"content": "新闻 1"}}]}},
    {"block_type": 12, "bullet": {"elements": [{"text_run": {"content": "新闻 2"}}]}},
]

result = create_wiki_doc_with_content(
    space_id="7632282247265029317",
    parent_node_token="目标目录的node_token",
    title="2026-06-20 每日情报",
    content_blocks=content_blocks,
    headers={"Authorization": "Bearer xxx"}
)
print(f"文档创建成功: {result['url']}")

写在最后

飞书 Wiki 自动化，坑多在权限模型和参数格式，业务逻辑本身并不复杂。几个建议：

第一次配置时多花时间理清权限：开发者后台 + 空间成员权限缺一不可
善用”先创建再移动”模式：避免子节点权限问题
统一管理 token：node_token 和 obj_token 别搞混，写一个工具函数专门做转换
限流必须处理：批量写一定要分批 + 间隔，否则 99992402 错误让你怀疑人生
OAuth scope 分开请求：跨产品权限不要一次性请求

如果你也在做飞书自动化，评论区交流一下你踩过的坑～

关联阅读：飞书机器人开发踩坑实录、飞书 Docx API 批量操作踩坑

自建磁力搜索爬虫：从入门到放弃再到放弃得明明白白

发表于 2026-06-20 分类于开发工具

想自己写个磁力搜索的爬虫？看完市面上大大小小的资源站，我总结出一套”分级降级”的实战规约：从纯静态正则到 Headless 浏览器破盾，按需升级，用最低成本搞定 80% 的网站。

写在前面：为什么写这篇

磁力搜索这件事，国内的站基本都活不长，今天能用的站明天就挂；国外的站又普遍有强反爬。纯靠 requests 写爬虫，十有八九会失败。

我摸索了一段时间，把”什么站用什么级别、什么级别用什么技术栈、怎么保护宿主机资源”整理出一套实战规约。这篇不是完整的爬虫教程，而是一份选型决策树——让你面对一个新站时，能快速判断该用什么级别去打。

核心原则：分级降级，按需升级

爬虫的级别从低到高，开销也越来越大。我设计了 4 个级别：

级别	适用场景	资源开销	技术栈
🟢 1 - 静态正则	上古 HTML 站，无反爬	极低	requests + BeautifulSoup + re
🟡 2 - 复杂静态	链接在 JS/隐藏 input 里	中等	requests + Base64 解码
🟠 3 - Headless 浏览器	必须点真实 DOM 才出链接	高	Playwright
🔴 4 - 终极破盾	Cloudflare 5秒盾	极高	DrissionPage

核心原则：一旦当前级别能搞定，立刻返回，绝不无故触发下一级。这是为了最大化保护宿主机——Headless 浏览器一启动就吃 500MB+ 内存，跑 10 个 VPS 就可能把你服务器干爆。

第一级：纯静态正则（80% 的简单站靠这个）

适用场景

上古时代的论坛、下载站
HTML 直接把磁力链接写在页面上
0 反爬措施，没有 Cloudflare、没有 JS 渲染

典型代表：dygod.net（电影天堂）、各种老 PT 论坛

技术栈

import requests
import re
from bs4 import BeautifulSoup

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}

MAGNET_RE = re.compile(r'magnet:\?xt=urn:btih:[a-zA-Z0-9]+', re.I)
FTP_RE = re.compile(r'ftp://[^\s"\'<>]+', re.I)

实战代码

def scrape_level1(search_url, headers=None):
    """级别1：纯静态正则"""
    h = headers or HEADERS
    resp = requests.get(search_url, headers=h, timeout=15)

    # 老旧网站常用 GB2312 编码，必须显式声明
    if 'gb2312' in (resp.apparent_encoding or '').lower():
        resp.encoding = 'gb2312'

    html = resp.text

    # 一次性提取所有磁力和 FTP
    magnets = set(MAGNET_RE.findall(html))
    ftps = set(FTP_RE.findall(html))

    return list(magnets) + list(ftps)

实战经验

绕开主页：不要在主页白费力气。先用站内搜索或 Google site:xxx 关键字 定位到具体的详情页，详情页的链接密度更高
编码处理：老站常用 GB2312，不显式声明会乱码
去重：同一页面可能有重复链接，用 set 去重
资源消耗：全程不到 50MB 内存，宿主机毫无压力

提取元数据（重要！）

不要只返回磁力链接！ 用户需要知道这个链接是什么资源。提取这些信息：

文件大小（Size）
清晰度（1080p / 4K / 720p）
文件格式（MKV / MP4 / TS）
音轨字幕信息
版本说明（Remux / Web-DL / BDRip）

import re

def extract_metadata(context_text):
    """从磁力链接的上下文文本提取元数据"""
    metadata = {}

    # 清晰度
    if res := re.search(r'\b(2160p|1080p|720p|4K)\b', context_text, re.I):
        metadata['resolution'] = res.group(1)

    # 格式
    if fmt := re.search(r'\b(BluRay|WEB-DL|HDTV|DVDRip|Remux|BDRip)\b', context_text, re.I):
        metadata['source'] = fmt.group(1)

    # 文件大小（GB/MB）
    if size := re.search(r'(\d+\.?\d*)\s*(GB|MB)', context_text, re.I):
        metadata['size'] = f"{size.group(1)} {size.group(2)}"

    return metadata

拿到磁力后，在 HTML 里找它的父节点或相邻文本节点，把这些信息一起返回给用户。

第二级：复杂静态解析

适用场景

页面返回 200 OK，但磁力链接被 Base64 编码藏在 JS 变量里
链接放在隐藏的 <input> 或 data-* 属性中
需要简单的 Token 拼接

实战代码

import base64

def scrape_level2(html):
    """级别2：从 JS 变量和隐藏 input 提取"""
    magnets = []

    # 1. 从 <input> value 提取
    soup = BeautifulSoup(html, 'html.parser')
    for inp in soup.find_all('input', type='hidden'):
        value = inp.get('value', '')
        if 'magnet:?' in value:
            magnets.append(value)

    # 2. 从 data-* 属性提取
    for elem in soup.find_all(attrs={'data-magnet': True}):
        magnets.append(elem['data-magnet'])

    # 3. 从 JS 变量 Base64 解码提取
    b64_pattern = re.compile(r'["\']([A-Za-z0-9+/=]{40,})["\']')
    for match in b64_pattern.findall(html):
        try:
            decoded = base64.b64decode(match).decode('utf-8', errors='ignore')
            if 'magnet:?' in decoded:
                # 再用级别1的正则提取
                magnets.extend(MAGNET_RE.findall(decoded))
        except Exception:
            continue

    return list(set(magnets))

这个级别解决 60% 的”看起来很难其实静态”的网站。

第三级：Headless 浏览器（高开销，按需用）

适用场景

必须点击真实 DOM 节点（如下载按钮）才会触发 XHR 请求返回链接
网站用了 React/Vue 渲染，纯 HTML 看不到内容

技术栈

Playwright（推荐）或 Puppeteer。

实战代码

from playwright.sync_api import sync_playwright

def scrape_level3(url):
    """级别3：Headless 浏览器模拟点击"""
    magnets = []

    with sync_playwright() as p:
        browser = p.chromium.launch(headless=True)
        try:
            page = browser.new_page()
            page.goto(url, timeout=30000)
            page.wait_for_load_state('networkidle')

            # 模拟点击下载按钮
            page.click('a.download-btn', timeout=5000)
            page.wait_for_timeout(2000)  # 等 XHR 回来

            # 提取渲染后的 HTML
            html = page.content()
            magnets = MAGNET_RE.findall(html)

        finally:
            browser.close()  # 🔥 关键：必须 close，否则内存泄露

    return magnets

护栏铁律

严禁并发！ 一个浏览器实例吃 500MB+ 内存，开 5 个并发 VPS 直接 OOM。

# ❌ 错误写法
async def scrape_many(urls):
    tasks = [scrape(url) for url in urls]
    await asyncio.gather(*tasks)  # 并发 5 个 Playwright 直接 OOM

# ✅ 正确写法
def scrape_many(urls):
    for url in urls:
        result = scrape_level3(url)
        # 串行执行，每个跑完立刻销毁

第四级：DrissionPage 终极破盾（核武器）

适用场景

Cloudflare “Just a moment” 5 秒盾
521 强力 Anti-Bot 拦截
eztv.ag、therarbg.com 等重度 CF 站

技术栈

DrissionPage（基于 Chromium，能自动处理 CF 挑战）。

实战代码

from DrissionPage import ChromiumPage, ChromiumOptions

def scrape_level4(url):
    """级别4：DrissionPage 破 CF 盾"""
    magnets = []

    options = ChromiumOptions()
    options.headless(True)

    page = None
    try:
        page = ChromiumPage(options)
        page.get(url, retry=3, timeout=30)

        # CF 盾通常需要 5-8 秒等待
        page.wait.load_start()

        # 等待页面正常加载（CF 挑战完成后页面会有变化）
        for _ in range(30):
            if 'just-a-moment' not in page.html.lower():
                break
            page.wait(1)

        magnets = MAGNET_RE.findall(page.html)
    finally:
        if page:
            page.quit()  # 🔥 关键：销毁 Chromium 内核进程

    return magnets

护栏铁律

DrissionPage 启动的 Chromium 比 Playwright 更重，必须在 finally 中强制 quit，否则后台残留进程吃满内存。

实战决策树

面对一个新站，按这个顺序试：

新站 → 用级别1试
  ↓ 成功？搞定
  ↓ 失败
  → 用级别2试
    ↓ 成功？搞定
    ↓ 失败
    → 用级别3试
      ↓ 成功？搞定
      ↓ 失败
      → 用级别4（最后手段）
        ↓ 失败？放弃，换别的站

关键：每一级都用 try/except，失败了自动降级下一级；不要一上来就 Headless 浏览器，杀鸡用牛刀。

资源保护红线

不管用哪一级，一定要遵守：

严禁并发：Headless 浏览器一启动就吃 500MB+，并发 3 个就可能 OOM
强制资源释放：try...finally 块中执行 browser.close() 或 page.quit()
超时必须设：每个 HTTP 请求必须 timeout=15，否则卡死会拖垮整个流程
频率限制：两次请求之间加 time.sleep(1-3)，避免被目标站拉黑
优先静态：能静态正则搞定的绝不用浏览器

站梯队清单（实测）

🏆 梯队一：影视动漫资源站

站点	难度	推荐级别
`dygod.net`	⭐ 极其简单	级别 1
`seedhub.cc`	⭐⭐ 需要策略	级别 2
`bttwoo.com`	⭐⭐ 需要策略	级别 2
`btbtla.com`	❌ 强 CF	级别 4

🥈 梯队二：磁力 Telegram 搜索引擎

站点	难度	推荐级别
`thepiratebay.org`	⭐⭐	级别 2-3
`ciliku.net`	⭐⭐	级别 2
`eztv.ag`	❌ 极强 Anti-Bot	级别 4

一句话总结

爬虫的精髓不是”用最牛的技术”，而是”用最低的成本搞定目标”。

80% 的老站用静态正则就够
真碰到 JS 渲染再上 Headless
CF 盾最后才动用 DrissionPage

按这个分级思路，用最少的资源，跑最多的网站。

如果你也在做爬虫，评论区聊聊你踩过的反爬坑～

OneDrive 全量备份踩坑实录：2.5GB 打包压缩到 312MB 的全过程

发表于 2026-06-20 分类于运维

服务器上的脚本和数据越来越多，每天备份到 OneDrive 越来越慢，跨国上传经常超时断线。这篇记录我把 2.5GB 备份压缩到 312MB、传输从超时变成秒传的完整过程。

痛点：备份越来越慢，最后干脆失败

我的服务器每天凌晨自动跑全量备份到 OneDrive（用 Microsoft Graph API）。最开始一切正常，但随着时间推移：

/root/.hermes 目录越来越大
Python 虚拟环境、Node 依赖、系统快照、回收站……这些备份根本不需要的东西也一起被打包
打包文件膨胀到 2.5GB+
跨国直连上传，碰上大文件经常超时，被网关掐断
即使没超时，大分片（10MB+）一抖动就丢包，重试率高得离谱

最后索性直接失败。

第一步：分析为什么这么大

我先看了下备份内容到底是啥：

1 2	tar -tzf /tmp/last_backup.tar.gz \| head -50 du -sh /root/.hermes/* \| sort -hr \| head -10

发现真正占空间的是这些”垃圾”：

目录	大小	是不是真的需要备份？
`venv`	~500 MB	❌ 重新装就行
`node_modules`	~800 MB	❌ 重新 `npm install` 就行
`.hermes/node`	~300 MB	❌ 系统级二进制
`.hermes/lsp`	~150 MB	❌ 语言服务器
`.hermes/state-snapshots`	~1 GB	❌ 运行时快照
`.hermes/trash`	~50 MB	❌ 回收站
`.hermes/checkpoints`	~200 MB	❌ 历史 checkpoint
真实业务数据	~300 MB	✅ 必须备份

结论：真正需要备份的只有约 12%，其他全是”环境 + 缓存 + 历史”。

第二步：手术刀式排除（核心优化）

在 tar 命令里精准加入 --exclude 参数：

tar -czf backup.tar.gz \
  --exclude='*venv*' \
  --exclude='*node_modules*' \
  --exclude='.hermes/node' \
  --exclude='.hermes/lsp' \
  --exclude='.hermes/checkpoints' \
  --exclude='.hermes/state-snapshots' \
  --exclude='.hermes/trash' \
  /root/.hermes /root/scripts

实测效果：

项目	优化前	优化后	缩减率
打包体积	2.5 GB	312 MB	88%
打包时间	~30 秒	< 5 秒	83%
上传耗时	超时失败	8 分钟	∞

体积直接打了 1 折，效果立竿见影。

几个细节：

*venv* 用通配符匹配各种虚拟环境（venv、.venv、myenv 等）
--exclude 可以写多次，每次一个模式
注意 exclude 的顺序：tar 是按命令行顺序匹配的，靠前的规则先生效
排除 state-snapshots 后，再加个清理逻辑：保留最近 3 个快照，旧的删掉

第三步：解决上传超时

打包体积小了，但跨国上传还是不稳定。继续优化。

关键点 1：免代理直连

我服务器上配置了 Xray 代理（127.0.0.1:10808），Python 的 requests 库默认会读环境变量 HTTP_PROXY，导致 OneDrive 走代理上传，反而更慢。

解法：建一个专属的 Session，关掉 trust_env：

import requests

direct_session = requests.Session()
direct_session.trust_env = False  # 不读系统代理环境变量

这样 OneDrive 的 Graph API 调用 100% 走物理直连。

关键点 2：5MB 黄金分片

OneDrive 上传大文件需要分片，原本我用的是 10MB 分片。改成 5MB 后：

单个分片小 → 抖动丢包的影响小
重试成本低 → 单分片重传只要几秒
并发友好 → 可以同时上传多个 5MB 分片

1	CHUNK_SIZE = 5 * 1024 * 1024 # 5MB

关键点 3：重试 + 抖动退避

加上重试逻辑：

import time

def upload_with_retry(session, url, data, max_retries=5):
    for attempt in range(max_retries):
        try:
            response = session.put(url, data=data)
            if response.status_code in (200, 201, 202):
                return response
        except requests.exceptions.RequestException as e:
            print(f"上传失败 (第 {attempt+1} 次): {e}")

        # 退避：每次重试前多等一会
        time.sleep(3 + attempt)

    raise Exception(f"上传失败，已重试 {max_retries} 次")

退避时间设置也很重要：

第 1 次重试：等 3 秒
第 2 次重试：等 4 秒
第 3 次重试：等 5 秒
…

避免重试风暴给服务端压力。

第四步：完整的优化脚本

下面是核心上传逻辑（简化版）：

import os
import tarfile
import requests
import time

ONEDRIVE_BACKUP_PATH = "backups/full_backup"
CHUNK_SIZE = 5 * 1024 * 1024  # 5MB

def create_backup_tar(source_dirs, output_file):
    """打包 + 排除垃圾"""
    excludes = [
        "*venv*",
        "*node_modules*",
        ".hermes/node",
        ".hermes/lsp",
        ".hermes/checkpoints",
        ".hermes/state-snapshots",
        ".hermes/trash",
    ]

    with tarfile.open(output_file, "w:gz") as tar:
        for source in source_dirs:
            tar.add(source, arcname=os.path.basename(source),
                    exclude=lambda name: any(ex in name for ex in excludes))
    return output_file


def upload_to_onedrive(file_path, access_token):
    """分片上传到 OneDrive"""
    session = requests.Session()
    session.trust_env = False  # 关键：不读代理
    session.headers.update({
        "Authorization": f"Bearer {access_token}",
        "Content-Type": "application/octet-stream"
    })

    file_size = os.path.getsize(file_path)
    file_name = os.path.basename(file_path)

    # 1. 创建上传会话
    create_url = f"https://graph.microsoft.com/v1.0/me/drive/root:/{ONEDRIVE_BACKUP_PATH}/{file_name}:/createUploadSession"
    resp = session.post(create_url, json={"item": {"@microsoft.graph.conflictBehavior": "replace"}})
    upload_url = resp.json()["uploadUrl"]

    # 2. 分片上传
    with open(file_path, "rb") as f:
        offset = 0
        while offset < file_size:
            chunk = f.read(CHUNK_SIZE)
            end = offset + len(chunk) - 1
            headers = {
                "Content-Length": str(len(chunk)),
                "Content-Range": f"bytes {offset}-{end}/{file_size}"
            }

            for attempt in range(5):
                resp = session.put(upload_url, data=chunk, headers=headers)
                if resp.status_code in (200, 201, 202):
                    break
                print(f"分片 {offset}-{end} 重试 {attempt+1}/5")
                time.sleep(3 + attempt)
            else:
                raise Exception(f"分片 {offset}-{end} 上传失败")

            offset = end + 1
            print(f"已上传 {offset}/{file_size} bytes ({100*offset//file_size}%)")

    return True


# 主流程
tar_file = create_backup_tar(["/root/.hermes", "/root/scripts"], "/tmp/backup.tar.gz")
print(f"打包完成: {os.path.getsize(tar_file) / 1024 / 1024:.1f} MB")

upload_to_onedrive(tar_file, access_token="...")
print("✅ 上传成功")

实测结果

指标	优化前	优化后
打包体积	2.5 GB	312 MB
打包时间	30 秒	< 5 秒
上传耗时	超时失败	8 分钟
重试次数	50+	0
成功率	60%	100%

打包时间从 30 秒缩到 5 秒，传输成功率 100%。

一句话总结

备份不只是”把东西打包传上去”，更重要的是”只备份值得备份的东西”。先做排除规则（按目录/模式），再做传输优化（直连 + 小分片 + 重试），这两步做完一般都能把跨国备份从”经常失败”变成”稳定秒传”。

如果你也在搞自动化备份，评论区聊聊你踩过的坑～

飞书机器人突然不回复了？90% 是这个原因（gateway 排障实录）

发表于 2026-06-20 分类于开发工具

飞书 Bot 跑得好好的，某次系统更新 / 容器重启后突然不回复了？开放平台”验证连接状态”还显示失败？别急着怀疑飞书平台，90% 是本地 gateway 进程挂了。本文记录完整的诊断和恢复流程。

现象

给 bot 发消息，没任何回复
飞书开放平台”验证连接状态”按钮变红、显示失败
日志里出现 RuntimeError: Executor shutdown has been called

根因（一句话说清）

飞书 Bot 通常是用 WebSocket 长连接保持在线的（不用 webhook 回调，免公网 IP）。这个长连接进程一般叫 gateway。

当 gateway 进程被 SIGTERM 杀掉后，asyncio 的线程池 executor 进入关闭状态。这时候即使 WebSocket 重连成功、消息也收到了，回复消息时调用线程池的代码会直接抛 Executor shutdown，导致消息发不出去。

表现就是：

飞书后台显示”连接异常”或”验证失败”
实际 bot 能收到消息，但发不出去
用户以为 bot 死了

完整诊断步骤

第一步：确认 gateway 进程是否存活

1	ps aux \| grep -E 'hermes\|gateway' \| grep -v grep

怎么看：

看到 hermes gateway run 进程 → gateway 还活着，问题不在这里
只看到 hermes chat 之类的 CLI 进程，没有 gateway → gateway 已挂，继续下一步

第二步：看 gateway 日志

1	tail -50 ~/.hermes/logs/gateway.log

关键日志模式：

日志	含义
`Executor shutdown has been called`	executor 崩了，消息发不出
`Received SIGTERM — initiating shutdown`	gateway 被信号杀掉了
`✓ feishu connected`	飞书 WebSocket 连接正常
最后一行是 shutdown，没有新启动记录	gateway 已停

第三步：检查配置（仅在 gateway 正常仍不回复时）

1	cat ~/.hermes/config.yaml \| grep -A 10 feishu

确认几件事：

enabled: true
connection_mode: websocket
没有 proxy: 配置（飞书必须直连，代理会破坏 WebSocket）
app_id 和 app_secret 正确

解法

方案 A：重启 gateway（90% 的情况用这个）

# 后台启动
nohup hermes gateway run > ~/.hermes/logs/gateway.log 2>&1 &

# 等 5-10 秒看启动日志
tail -20 ~/.hermes/logs/gateway.log

看到这两行就是启动成功：

1 2	✓ feishu connected Gateway running with 2 platform(s)

然后去飞书给 bot 发条消息测试。

方案 B：gateway 反复崩溃

检查是否有多个 gateway 进程冲突：

1	ps aux \| grep 'hermes gateway' \| grep -v grep

如果有多个，全杀掉再重启：

1
2
3

pkill -f 'hermes gateway'
sleep 2
nohup hermes gateway run > ~/.hermes/logs/gateway.log 2>&1 &

方案 C：一键恢复命令

# 杀掉残留进程 + 重启 + 验证
pkill -f 'hermes gateway' 2>/dev/null; sleep 2
nohup hermes gateway run > ~/.hermes/logs/gateway.log 2>&1 &
sleep 10 && tail -20 ~/.hermes/logs/gateway.log

几个常见误区

1. “验证连接状态”按钮失败 ≠ 真的失败

飞书开放平台的”验证连接状态”按钮，点失败不用慌。这是因为一些 SDK 库（比如 lark-oapi）实现细节问题，对平台侧的 PONG 探测不回复，属于设计如此。

判断真正状态的标准：看 gateway 日志有没有 ✓ feishu connected，加上实际发条消息看 bot 能不能回复。

2. 飞书必须直连，不要走代理

.feishu.cn 和 .larksuite.com 域名不要配代理。代理引入的额外握手延迟会破坏 WebSocket 长连接。

如果你用了全局代理（如 Xray、Clash）：

环境变量加 no_proxy=*.feishu.cn,*.larksuite.com
或在 config.yaml 的 feishu 配置段明确不要 proxy

3. 别反复重启 `hermes chat`

hermes chat 是 CLI 客户端（你用来跟 AI 聊天的命令行界面），不是后台服务。重启它对飞书连接毫无帮助。

真正管飞书连接的是 hermes gateway。

4. 怀疑飞书平台前先自查

飞书服务端极少出问题。99% 的情况是本地 gateway 进程或 executor 状态异常。先按上面流程自查，确认本地没问题再去提工单。

防患于未然：如何避免 gateway 反复挂

1. 用 systemd 守护（推荐）

如果你在 Linux VPS 上跑：

# /etc/systemd/system/hermes-gateway.service
[Unit]
Description=Hermes Gateway
After=network.target

[Service]
Type=simple
User=root
ExecStart=/usr/local/bin/hermes gateway run
Restart=always
RestartSec=10
StandardOutput=append:/var/log/hermes-gateway.log
StandardError=append:/var/log/hermes-gateway.log

[Install]
WantedBy=multi-user.target

1
2
3

systemctl daemon-reload
systemctl enable hermes-gateway
systemctl start hermes-gateway

这样 gateway 挂了 systemd 会自动拉起，不用人工干预。

2. 用 Docker 跑（更隔离）

# docker-compose.yml
services:
  hermes-gateway:
    image: your-hermes-image
    command: hermes gateway run
    restart: unless-stopped
    volumes:
      - ./config:/root/.hermes/config.yaml
      - ./logs:/root/.hermes/logs
    logging:
      driver: json-file
      options:
        max-size: "10m"
        max-file: "3"

restart: unless-stopped + Docker 自带的日志轮转，比裸跑稳得多。

3. 加监控和告警

1
2
3

# 每 5 分钟检查一次 gateway 是否存活
*/5 * * * * pgrep -f 'hermes gateway' > /dev/null || \
  (nohup hermes gateway run > ~/.hermes/logs/gateway.log 2>&1 &)

或者用更高级的：写一个 watchdog 脚本，gateway 挂了自动重启 + 飞书消息通知你。

一句话总结

飞书 bot 不回复 → 先看 gateway 日志 → 有 Executor shutdown 或进程不在 → 重启 gateway → 完事。

如果你也踩过这个坑，或者有更高级的排查思路，评论区聊聊～

关联阅读：飞书机器人开发踩坑实录：权限配置、群聊互@

飞书 Docx API 批量操作踩坑：从 1770001 invalid param 说起

发表于 2026-06-20 分类于开发工具

想用飞书开放平台 API 批量编辑文档（删除、更新 Blocks）？你会发现 tenant_access_token 下批量删除大块内容直接报 invalid param (1770001)。本文记录我踩过的坑和真实可用的解法。

起因：为什么要批量编辑飞书文档

我做一个内容自动化项目，需要把外部数据（日报、监控结果）写入飞书文档。理想流程：

拉取最新数据
清空文档旧内容
写入新内容

听起来很简单对吧？但飞书 Docx API 在批量操作上有奇怪的限制，文档上没写明，我花了 2 小时才搞清。

现象：哪些能跑通，哪些不行

我用 tenant_access_token（应用身份）调用飞书 Docx API 测试了一通：

操作	API	结果
创建 Block	`POST .../blocks/{parent_id}/children`	✅ 成功
删除单个 Block	`DELETE .../batch_delete` 传 `start_index=N, end_index=N+1`	✅ 成功
批量删除多个 Block	`DELETE .../batch_delete` 传 `start_index=4, end_index=14`	❌ 报 `invalid param (1770001)`
更新 Block	`PATCH .../blocks/{block_id}`	❌ 报 `invalid param`

规律：单个操作能跑通，批量操作直接拒绝。

根因猜测

文档上没明说，我推测是：

tenant_access_token 是应用级身份，权限受限
批量删除 / 更新涉及”破坏性操作 + 多 block 影响范围”，平台对应用身份做了风控
想做复杂编辑，可能要用 user_access_token（用户身份）

但获取 user_access_token 需要 OAuth 流程，比较麻烦。我先尝试在 tenant_access_token 下找别的出路。

解决方案一：逐块删除（治本，最稳）

思路：每次只删一个 block，从后往前删（避免索引变化），删完一个再删下一个。

import requests

def delete_blocks_one_by_one(doc_token, parent_id, headers, start, end):
    """从 end 往 start 倒序删除"""
    current_end = end
    while current_end > start:
        # 先获取当前最新的 document_revision_id
        rev_resp = requests.get(
            f"https://open.feishu.cn/open-apis/docx/v1/documents/{doc_token}",
            headers=headers
        )
        rev = rev_resp.json()["data"]["document"]["revision_id"]

        # 删除一个 block
        del_resp = requests.delete(
            f"https://open.feishu.cn/open-apis/docx/v1/documents/{doc_token}/blocks/{parent_id}/children/batch_delete",
            params={"document_revision_id": rev},
            json={"start_index": current_end - 1, "end_index": current_end},
            headers=headers
        )
        if del_resp.json().get("code") != 0:
            raise Exception(f"删除失败: {del_resp.json()}")
        current_end -= 1

缺点：删除 N 个 block 要发 N 次请求，慢。但稳。

解决方案二：先删后插（推荐，效率高）

思路：用最简单的”删除一个 + 批量创建”组合，避开”批量删除”的限制。

def replace_content(doc_token, parent_id, new_content_blocks, headers):
    """用新内容替换文档内容"""
    # 1. 先删掉最后一个 block（保留索引 0 用于锚定）
    rev = get_revision(doc_token, headers)
    requests.delete(
        f"https://open.feishu.cn/open-apis/docx/v1/documents/{doc_token}/blocks/{parent_id}/children/batch_delete",
        params={"document_revision_id": rev},
        json={"start_index": 1, "end_index": 2},  # 假设文档原有内容在 1-2
        headers=headers
    )

    # 2. 批量插入新内容
    requests.post(
        f"https://open.feishu.cn/open-apis/docx/v1/documents/{doc_token}/blocks/{parent_id}/children",
        json={"children": new_content_blocks},
        headers=headers
    )

关键发现：POST 创建 Block 是支持批量的，单次最多创建多个 children。所以**”创建”用批量、”删除”用逐个**是最佳组合。

解决方案三：换用 user_access_token

如果一定要批量删除，得拿到 user_access_token：

# 1. 引导用户授权
auth_url = (
    "https://open.feishu.cn/open-apis/authen/v2/index?"
    "app_id=YOUR_APP_ID&"
    "redirect_uri=YOUR_REDIRECT&"
    "scope=docx:document:write_only"
)
# 用户访问 auth_url 并授权后，会回调到 redirect_uri 并带上 code

# 2. 用 code 换 user_access_token
resp = requests.post(
    "https://open.feishu.cn/open-apis/authen/v2/oauth/token",
    json={
        "grant_type": "authorization_code",
        "code": code_from_callback,
        "client_id": "YOUR_APP_ID",
        "client_secret": "YOUR_APP_SECRET"
    }
)
user_access_token = resp.json()["access_token"]

适用场景：

你做的是用户级产品（用户授权后代表自己操作）
不适合纯后台自动化场景（拿不到用户授权）

实用的代码片段（生产可用）

下面是我项目里跑通的版本——把”清空文档 + 写入日报内容”封装成一个函数：

import requests
import json

FEISHU_BASE = "https://open.feishu.cn/open-apis/docx/v1"

def clear_and_write_doc(doc_token, parent_id, tenant_token, new_blocks):
    """清空飞书文档指定区域并写入新内容"""
    headers = {
        "Authorization": f"Bearer {tenant_token}",
        "Content-Type": "application/json"
    }

    # 1. 获取文档当前总 block 数
    doc_resp = requests.get(
        f"{FEISHU_BASE}/documents/{doc_token}",
        headers=headers
    ).json()
    rev = doc_resp["data"]["document"]["revision_id"]
    block_count = len(doc_resp["data"]["document"]["blocks"])

    # 2. 从后往前逐个删除（保留索引 0 的占位 block）
    if block_count > 1:
        for i in range(block_count - 1, 0, -1):
            # 每次重新拿最新 revision_id
            rev = requests.get(
                f"{FEISHU_BASE}/documents/{doc_token}",
                headers=headers
            ).json()["data"]["document"]["revision_id"]

            del_resp = requests.delete(
                f"{FEISHU_BASE}/documents/{doc_token}/blocks/{parent_id}/children/batch_delete",
                params={"document_revision_id": rev},
                json={"start_index": i, "end_index": i + 1},
                headers=headers
            ).json()
            if del_resp.get("code") != 0:
                print(f"删除第 {i} 个 block 失败: {del_resp}")
                break

    # 3. 批量创建新内容
    create_resp = requests.post(
        f"{FEISHU_BASE}/documents/{doc_token}/blocks/{parent_id}/children",
        headers=headers,
        json={"children": new_blocks}
    ).json()
    return create_resp

# 用法
new_blocks = [
    {"block_type": 2, "text": {"elements": [{"text_run": {"content": "今日日报"}}]}},
    {"block_type": 2, "text": {"elements": [{"text_run": {"content": "AI 行业有 3 条重要新闻..."}}]}},
    # ... 更多 block
]

result = clear_and_write_doc(
    doc_token="你的文档ID",
    parent_id="父 block ID",
    tenant_token="应用的 tenant_access_token",
    new_blocks=new_blocks
)
print(result)

其他可能踩的坑

1. document_revision_id 必须用最新的

飞书文档每次修改后 revision_id 会变。如果删一个 block 用老的 revision_id，会报”revision 不匹配”。正确做法：每次操作前先 GET 一次拿最新 revision。

2. 索引会动态变化

你删除第 5 个 block 后，原本索引 6 的内容会变成索引 5。所以逐个删除必须从后往前。

3. 文档有占位 block

新建的飞书文档至少有一个 block（往往是占位段落），删除时别把整个文档删空，否则后续插入可能找不到 parent。

4. Wiki 文档 vs 普通 Docx 文档

如果你操作的是 Wiki 节点下的文档（/wiki/...），它的 API 路径前缀是 /wiki/v2，不是 /docx/v1。这是另一个 API 体系，权限模型也不同。

写在最后

飞书 Docx API 的限制比想象的多，文档没明示，官方论坛也很少有人讨论。这里总结几点：

小批量操作（< 5 个 block）：用 tenant_access_token 配合”逐个删除 + 批量创建”组合
大批量操作：老老实实拿 user_access_token
避免动态索引问题：从后往前删，每次操作前 GET 最新 revision
生产环境：加 try-catch 和重试，飞书 API 偶尔会有 500 错误

如果你也在做飞书自动化，评论区交流一下你踩过的坑～

关联阅读：飞书机器人开发踩坑实录：权限配置、群聊互@和那些我绕过的弯路

把 PDF 变成可读 Markdown：MinerU 文档解析 MCP 部署实战

发表于 2026-06-20 分类于 AI工程

想让 AI 读 PDF 论文、合同、扫描件？MinerU 这个国产开源工具的解析精度堪比专业 OCR，还能直接以 MCP 协议挂到 Claude / GPT 工作流里。这篇记录我从零部署到稳定使用的完整过程。

背景：为什么需要文档解析 MCP

我经常要把 arXiv 论文、行业报告、PDF 合同喂给 AI 处理。问题是：

直接把 PDF 路径给 GPT？它读不动扫描版、表格、复杂公式
用现成的 OCR 服务？要么贵、要么精度不行、要么是闭源
自己跑 PaddleOCR？需要 GPU 环境，部署成本高

直到发现了 MinerU（OpenDataLab 出品），发现这是当前最好的开源方案：

✅ 国产开源，支持本地/云端双模式
✅ 解析精度高（公式、表格、版面都能识别）
✅ 支持 PDF/DOCX/PPTX 多格式
✅ 输出标准 Markdown，可以直接喂给大模型
✅ 官方提供 MCP 服务端，开箱即用

第一步：环境准备

Node.js 版本要求

MinerU 的 MCP 包基于 Node.js 18+，但实际跑起来强烈建议用 Node 20+（我用 22 完全没问题）。

关键陷阱：用绝对路径，不要用 `node`

直接写 command: node 在很多 MCP 客户端会出诡异错误——spawn node ENOENT。原因可能是：

系统的 PATH 里 node 不存在
或者 MCP 客户端用的是另一个虚拟环境

正确做法：用 Node 二进制的绝对路径：

1
2
3

command: /root/.hermes/node/bin/node   # 或你的实际路径
args:
  - /root/.hermes/node/lib/node_modules/mineru-mcp/dist/index.js

不同系统的路径：

Linux 自定义安装：/opt/node/bin/node
macOS Homebrew：/opt/homebrew/bin/node 或 /usr/local/bin/node
nvm：~/.nvm/versions/node/v22.0.0/bin/node

可以用 which node 查实际路径。

第二步：安装 MCP 包

1	npm install -g mineru-mcp

装完后会输出包路径，类似：

1 2	/usr/local/lib/node_modules/mineru-mcp # 或 /root/.hermes/node/lib/node_modules/mineru-mcp（隔离环境）

记住这个路径，待会要写到配置里。

第三步：获取 API Key

到 https://mineru.net 注册开发者账号，在控制台拿到 API Token。

安全提示：

不要把 API Key 直接写在命令行里调试（容易被 shell 历史、监控日志捕获）
不要写到公共配置仓库
推荐做法：写入 MCP 配置文件的 env 字段，用权限 600 保护

第四步：配置 MCP 服务

不管你是用 Claude Desktop、Cursor、Cline 还是自建的 Hermes Agent，配置方式大同小异：

mcp_servers:
  mineru-mcp:
    command: /root/.hermes/node/bin/node
    args:
      - /root/.hermes/node/lib/node_modules/mineru-mcp/dist/index.js
    env:
      MINERU_API_KEY: your_api_key_here
    enabled: true

加载配置后（一般是 /reload 或重启客户端），AI 工具列表里会多出 6 个工具：

工具	功能
`mineru_parse`	提交单个文档 URL 解析
`mineru_status`	查询解析状态、拿结果
`mineru_batch`	批量提交（最多 200 个）
`mineru_batch_status`	批量任务进度查询
`mineru_upload_batch`	上传本地文件批量解析
`mineru_download_results`	下载结果并保存为 Markdown

第五步：实战用法

单个 PDF 解析

让 AI 帮你调用：

“帮我解析这篇论文 https://arxiv.org/pdf/2401.00001.pdf，提取核心方法和实验结果“

AI 会自动：

调用 mineru_parse 提交任务
调用 mineru_status 轮询状态
拿到 Markdown 结果后做总结

批量解析（一键处理一堆论文）

1 2	帮我批量解析这几篇 PDF：https://arxiv.org/pdf/A.pdf, https://arxiv.org/pdf/B.pdf, ... 结果保存到 /root/knowledge_vault/raw/ 目录

本地文件解析

1	/tmp/contracts/ 目录里有几份扫描版合同，帮我提取关键条款（金额、期限、违约责任）

第六步：踩坑记录

坑 1：解析状态长时间 Pending

现象：提交了一个 100 页的扫描版 PDF，过了 1 分钟还在 Pending 状态。

原因：复杂排版/扫描件需要更长时间处理，这是正常现象不是 bug。

正确做法：

设置合理的轮询间隔（5-10 秒一次）
单次响应慢不要立即重试或杀进程
给 MCP 调用设置 5 分钟左右的 timeout

import time

for i in range(60):  # 最多轮询 5 分钟
    status = call_tool("mineru_status", {"task_id": task_id})
    if status["state"] == "completed":
        return status["result"]
    time.sleep(5)

坑 2：`spawn node ENOENT` 错误

根因：配置里用了裸 node 命令，但 MCP 客户端的 PATH 环境变量里找不到。

解法：改用 Node 二进制的绝对路径（上面第一步已经强调）。

坑 3：API Key 被日志泄露

现象：调试时为了方便，把 Key 直接写在 shell 命令里，结果被某段日志脚本捕获后传到云端监控。

解法：

调试时用环境变量：export MINERU_API_KEY=xxx && call_tool ...
配置完成立即 unset MINERU_API_KEY
长期配置写在 MCP 配置文件的 env 字段，并加权限 chmod 600 config.yaml

第七步：实测效果

我用 MinerU 解析了 50 篇 arXiv 论文（平均 15 页，含公式和图表），对比直接用 GPT-4 Vision 处理：

维度	MinerU	GPT-4 Vision
公式识别准确率	~95%	~70%
表格识别	完整保留结构	经常错位
处理速度（单页）	~3 秒	~8 秒
成本（50 篇）	免费额度	约 $5
Token 消耗（喂给后续 LLM）	显著更少	较高

MinerU 输出的是干净的 Markdown，结构化程度高，喂给后续 LLM 的 token 消耗能减少 70% 左右。

第八步：高级用法（自动化场景）

配合定时任务：每天自动解析 RSS 里的论文

# 1. RSS 抓取器发现新论文链接
# 2. 调用 mineru_batch 批量解析
# 3. mineru_download_results 保存到本地
# 4. 自动入库到知识库

配合 RAG：文档向量化前预处理

MinerU 输出 Markdown → 拆分成 chunk → embedding 入向量库。整个链路无需任何人工干预。

配合论文阅读助手

把 MinerU + Claude / GPT 组合成”论文精读机器人”：

用户给 PDF URL
MinerU 解析成 Markdown
大模型读 Markdown，按”摘要/方法/实验/结论”四段总结
用户问细节时，针对性引用论文段落回答

写在最后

MinerU 是我目前用过的国产开源文档解析里精度最高、部署最简单、成本最低的方案。配合 MCP 协议，几乎所有 AI IDE 和 Agent 框架都能零成本接入。

几个建议：

个人学习用：免费额度完全够用，每天解析 100 篇论文都没问题
生产环境：建议买企业版 + 自己部署开源版做兜底
大批量任务：用 mineru_batch 比单篇循环快 5-10 倍
保留原始 PDF：解析结果虽然好，但 PDF 原件还是有保留价值

你在用什么工具解析 PDF？评论区聊聊～

知乎开放平台 API 实战：用它搭一个内容聚合 / 智能体问答系统

发表于 2026-06-20 分类于 AI工程

知乎官方开放平台提供了站内搜索、全网搜索、知乎直答（问答）、热榜四大类 API/Skill/MCP。这篇从实操角度，把每一类接口”怎么用、什么时候用、有什么坑”完整梳理一遍。

先说定位：知乎 API 适合什么场景

简单理解：知乎开放平台把它的内容检索、问答和热榜能力，以 API/MCP/Skill 三种形式开放出来。不是给”刷数据”用的，而是给 AI 应用做”内容源”用的。

常见用法：

场景	用哪个 API
给 AI 助手加上”查知乎”的能力	直答 API / 全网搜索
做内容聚合（自动追踪话题）	站内搜索 + 热榜
做舆情监控或趋势分析	热榜 + 全网搜索的 `filter` 参数
在 Claude / GPT / LangChain 工作流里嵌入	MCP 协议（标准接口）

第一步：拿到 Access Secret（鉴权）

注册和拿 key

到 https://developer.zhihu.com/profile 注册并创建应用。审核通过后（一般很快），在个人中心能看到 Access Secret。

调用格式

所有 API 统一用 Bearer 鉴权 + 时间戳防重放：

curl -G 'https://developer.zhihu.com/api/v1/content/zhihu_search' \
  --data-urlencode 'Query=怎么理解rave文化' \
  -H 'Authorization: Bearer 你的AccessSecret' \
  -H "X-Request-Timestamp: $(date +%s)" \
  -H 'Content-Type: application/json'

两个必填 Header：

Authorization: Bearer <你的AccessSecret>
X-Request-Timestamp: 秒级 Unix 时间戳（date +%s），必须传当前时间，服务端会校验时间偏差

最容易踩的坑：忘记带 X-Request-Timestamp，直接被拒。文档里这一行很多人没注意。

第二步：四大类接口的使用场景

1. 站内搜索（zhihu_search）

什么时候用：你想在 AI 应用里加”查知乎站内”的按钮或指令。

1	GET https://developer.zhihu.com/api/v1/content/zhihu_search

参数：

Query（必填）：关键词
Count（选填）：返回数量，默认 10，最大 10（多了服务端会截断）

返回字段：Title、ContentType（Article/Answer）、ContentID、Url、VoteUpCount、CommentCount、AuthorName、AuthorAvatar、EditTime、AuthorityLevel、RankingScore。

实战注意：

关键词必须是非空字符串，空字符串直接报错
想根据赞同数排序，自己拿到结果后做后处理；接口本身只按 RankingScore 排序（综合分）
AuthorityLevel（权威等级）是个被低估的字段——做严肃问答时可以用它做过滤

2. 全网搜索（global_search）

什么时候用：你想搜全网（不只是知乎），但要中文优先、知乎生态过滤。

1	GET https://developer.zhihu.com/api/v1/content/global_search

参数：

Query（必填）
Count（选填）：默认 10，最大 20
SearchDB：all（默认）/ realtime（实时）/ static（静态索引）
Filter：高级语法筛选，必须 URL 编码

Filter 是这个接口的灵魂，比如：

1	host=="example.com" AND publish_time>=1778494631

支持 host（站点域名过滤）+ publish_time（时间过滤）+ AND/OR 逻辑。

重要提示：host 不支持搜索知乎站内（zhihu.com 及子域名会被排除），搜站内必须用第一个接口。

3. 知乎直答（zhida）- 问答大模型

什么时候用：你想让 AI 应用直接调用知乎自家的大模型（基于知乎内容训练）。

1	POST https://developer.zhihu.com/v1/chat/completions

这个接口是 OpenAI 兼容的，可以直接套 OpenAI SDK：

import openai

client = openai.OpenAI(
    api_key="你的AccessSecret",
    base_url="https://developer.zhihu.com/v1",
    default_headers={"X-Request-Timestamp": str(int(time.time()))}
)

response = client.chat.completions.create(
    model="zhida-thinking-1p5",  # 深度思考模式
    messages=[{"role": "user", "content": "什么是 RAG？"}]
)

模型档位：

模型	特点
`zhida-fast-1p5`	快速回答，日常推荐
`zhida-thinking-1p5`	深度思考，输出包含 `reasoning_content`（推理过程）
`zhida-agent`	智能检索 + 回答（类似 RAG 模式）

流式响应：支持 SSE 格式，包含 reasoning_content 和 content 两段。前端可以分别渲染”思考过程”和”最终答案”。

4. 知乎热榜（hot_list）

什么时候用：做内容聚合、舆情监控、趋势追踪。

1	GET https://developer.zhihu.com/api/v1/content/hot_list?Limit=30

参数：Limit（选填），默认 30，最大 30。

返回结构非常清晰：

{
  "Total": 30,
  "Items": [
    {
      "Title": "如何看待当前 AI Agent 的发展趋势？",
      "Url": "https://www.zhihu.com/question/123456789",
      "ThumbnailUrl": "...",
      "Summary": "..."
    }
  ]
}

实战技巧：

把热榜数据 + 直答 API 组合：自动生成”今日热议话题解读”
用 ThumbnailUrl 做封面图，比你自己爬知乎省事得多
注意频率限制，别高频调用，会被限流（错误码 30001）

第三步：选 API、Skill 还是 MCP？

知乎开放平台针对每个接口提供了三种形式：

形式	适合谁	优点
RESTful API	后端开发、自己写代码	最灵活
Skill 包（.zip）	想要开箱即用的 Agent 框架	预制好 Agent 调用逻辑
MCP	Claude Desktop、Cursor 等支持 MCP 的工具	标准协议，接入即用

第四步：常见错误码

{
  "code": 20001,
  "message": "鉴权失败"
}

错误码	说明	排查方向
0	成功	-
10001	参数错误	检查 query 字段是否为空、格式是否正确
20001	鉴权失败	检查 AccessSecret 是否过期、是否带 `Bearer` 前缀
30001	频率限制	降低调用频率、加退避

实战：一个简单的”知乎热榜 + 解读”工作流

把上面几个 API 串起来：

import requests
import time
import openai

ACCESS_SECRET = "你的AccessSecret"
HEADERS = {
    "Authorization": f"Bearer {ACCESS_SECRET}",
    "X-Request-Timestamp": str(int(time.time())),
    "Content-Type": "application/json"
}

# 1. 拉热榜
hot = requests.get(
    "https://developer.zhihu.com/api/v1/content/hot_list",
    headers=HEADERS,
    params={"Limit": 10}
).json()

# 2. 用直答 API 给每个热点生成一段解读
client = openai.OpenAI(
    api_key=ACCESS_SECRET,
    base_url="https://developer.zhihu.com/v1",
    default_headers=HEADERS
)

for item in hot["Data"]["Items"]:
    response = client.chat.completions.create(
        model="zhida-fast-1p5",
        messages=[{
            "role": "user",
            "content": f"请用 100 字解读这个知乎热榜话题：{item['Title']}"
        }],
        stream=False
    )
    print(f"🔥 {item['Title']}")
    print(f"   {response.choices[0].message.content}\n")
    time.sleep(1)  # 避免频率限制

10 分钟就能搭一个”今日知乎热议 Top 10 解读”的脚本。

写在最后

知乎开放平台相比其他大厂的开放平台，最良心的是 API 设计得规范、文档清晰、鉴权简单。特别是直答 API 直接兼容 OpenAI 协议，做应用接入几乎零成本。

几个建议：

不要高频调用：热榜 1 小时拉一次足够了，搜索按需调用
优先用站内搜索 API 而不是爬知乎：合规、稳定、有官方支持
直答 API 的 reasoning_content 字段：做”思考过程可视化”特别有用，很多前端直接渲染这个字段做”AI 在思考”的效果
AccessSecret 不要暴露在前端：所有 API 调用走后端代理，前端只调自己的后端

有问题欢迎评论区交流，或者告诉我你打算用知乎 API 做什么项目～

EvoMap 白嫖 GitHub 仓库积分：1W 积分保姆级攻略（含一次失败修复）

发表于 2026-06-20 分类于开发工具

最近发现一个叫 EvoMap 的活动，上传 GitHub 仓库就能换 API 积分，最高 1W。我跑通了一遍流程，踩了一个大坑，本文把我验证过的正确路径完整分享出来。

EvoMap 是什么

简单说：它是一个面向开发者的 AI API 积分平台，最近在做拉新活动——你提交一个 GitHub 仓库 URL，声明你在里面的角色（owner / maintainer），系统按仓库 star 数给你发积分，最高 1W。

看起来很爽对吧？但规则细节很微妙，解读错一个字就会被拒。

规则精确解读（一次失败的教训）

EvoMap 资格验证原文：

上传你的公开 GitHub 仓库 URL 并声明角色，奖励按仓库 star 数确定。

被拒的原因原文：

仓库属于你的 GitHub 账号（owner，或在活动开始前对其有提交贡献）

拆开看其实就两条路径：

角色	通过条件	难度
Owner	仓库 owner 是你的 GitHub 账号	简单（用 fork 即可）
Maintainer	在 EvoMap 活动开始之前就对仓库有 commit 历史（已被 merge 的 PR）	困难

注意 Maintainer 那条要求有个很坑的时间限制：必须是活动开始之前的 commit 历史。活动期间提的 PR 不算。

我第一次是怎么失败的

我看到 NodeLoc 上有个教程用户说”过几天也就基本有了，然后就可以用这个维护者身份爽拿1W积分”。这句话的隐含意思是：他在活动开始之前就已经向某个开源仓库提过 PR 并被 merge 了。

我跟着操作，向 timqian/chinese-independent-blogs（23k⭐）提交了 PR，状态是 Open（还在等维护者合并），然后去 EvoMap 申请 maintainer 角色。

结果：被拒。

失败根因（双重否定）：

❌ 仓库 owner 是 timqian，不是我的账号 → 不能选 owner
❌ 我的 PR 是活动期间才提的，未 merge，活动前没 commit 历史 → 也不能选 maintainer

正确的三条路径

失败后我梳理了三条可行方案：

方案	操作	优势	劣势
A ⭐推荐	改用 fork 仓库 + 选 owner	100% 通过	fork 通常 0⭐，只能拿保底积分
B	等 PR 被 timqian merge → 重提上游 + maintainer	23k⭐ 满积分	依赖上游 merge，不可控
C	用其他 star 高的自有仓	star 高	公开仓 star 一般都很低

结论：

想 100% 通过？ 选方案 A，立刻拿到保底积分
想拿满积分？ 选方案 B，但要等 merge，且 merge 之后还得再来 EvoMap 重新提交一次

我先用了方案 A（保险），方案 B 等 PR merge 之后再补一次。

实操步骤（方案 A）

Step 1：Fork 目标仓库

到 https://github.com/timqian/chinese-independent-blogs 页面，点右上角 Fork 按钮。

Fork 完成后，你账号下会有一个 你的账号/chinese-independent-blogs，owner 是你。

Step 2：准备你 Fork 的内容

可以小改一下 fork 仓库的内容（比如更新自己的博客条目），让 commit 历史活跃起来。不做任何修改直接提交，EvoMap 可能会因为无 commit 记录而质疑”你是真的 owner 吗”。

Step 3：在 EvoMap 提交

填入：

仓库 URL：https://github.com/你的账号/chinese-independent-blogs
角色：Owner
声明：例如 “这是我从上游 fork 的个人副本，我在我的博客中添加了条目”

提交后基本秒过。

实操步骤（方案 B，等 merge 后再补）

关键点：Fine-grained PAT 不行！

这一步特别容易踩坑：跨 fork PR 必须用 Classic PAT，不能用 Fine-grained。

Token 类型	跨 fork PR	EvoMap 适用
Fine-grained PAT	❌（对非自己账号的公共仓库永远是 read-only）	❌
Classic PAT + `public_repo` scope	✅	✅

Fine-grained PAT 不管你怎么勾选，对非自己账号的公共仓库权限永远是 read-only。这是 GitHub 的安全设计，没有绕过办法。

创建 Classic PAT 的步骤

访问 https://github.com/settings/tokens/new
Note 随便写，比如 “EvoMap-PR”
Expiration 建议 90 天或自定义
勾选 public_repo scope
生成后立即复制 token（只显示一次）

用 API 创建 PR

curl -X POST \
  -H "Accept: application/vnd.github+json" \
  -H "Authorization: Bearer 你的ClassicPAT" \
  https://api.github.com/repos/timqian/chinese-independent-blogs/pulls \
  -d '{
    "title": "Add 你的博客 to 中文独立博客列表",
    "head": "你的账号:你的分支",
    "base": "master",
    "body": "添加我的独立博客..."
  }'

权限要求：

对 fork 仓库：Contents: Write + Pull requests: Write
对上游仓库：只需 Pull 权限（PR 是通过 fork 仓库发起的，不是直接修改上游）

注意事项

1. PR 提交后等多久被 merge？

热门仓库的 PR merge 周期：1-30 天不等。chinese-independent-blogs 这种社区仓库一般 1-3 天。

如果 PR 一直没人看，去项目 issues 区礼貌 ping 一下，或者在 PR 评论里 @ 维护者。

2. 重新提交的限制

EvoMap 没有明确的”重提交次数限制”，但也不建议刷——同一仓库多次提交可能被识别为滥用。

3. 多个仓库可以多次提交

理论上你可以用多个 fork 仓库分别提交，但 EvoMap 似乎按”总 star 数”计算奖励，所以分散到多个低 star 仓库不如集中到一个 fork。

总结：最优策略

如果你只是想保底拿积分：

Fork 任意一个你看上的开源仓库
在 fork 里做点小修改（提交一个 commit）
提交到 EvoMap，选 Owner
拿到保底积分

如果你想最大化收益：

选一个你熟悉的、star 数高的开源项目
在活动开始之前就提 PR 并被 merge（这样后期才能用 maintainer 身份）
维护贡献历史，积累到一定权重再申请

我已经用方案 A 拿到保底积分，等 PR merge 后再来方案 B 补一次。如果有进展我会在评论区更新。

你也在玩 EvoMap 吗？欢迎评论区交流你的姿势～

腾讯元宝 API 提取实战：把它的非标接口包装成标准 OpenAI 兼容

发表于 2026-06-20 分类于 AI工程

元宝的 API 又有 IP 白名单限制，路径也不是 OpenAI 标准的 /v1/chat/completions。这篇记录如何用一个 100 行的 Python 代理，把元宝包装成标准 OpenAI 兼容接口。

为什么要折腾这个

国内大厂的 AI 大模型 API，基本上都有几个共同特点：

IP 白名单：只能在特定出口 IP 调用
路径自定义：不是 /v1/chat/completions，而是 /api/bot/chat/completions 之类
Token 字段奇怪：数字返回字符串、流式挂起等

这些设计对厂商自有产品友好，但如果你想拿来做实验、接第三方客户端（比如 Page Assist、ChatBox、LobeChat），基本都会踩坑。

我最近用腾讯元宝做了一轮穿透，踩了不少雷，记录一下完整方案。

第一步：摸清厂商 API 的实际行为

先把厂商的原始 API 摸清楚，不能靠猜。

元宝的 API 特征：

维度	元宝实际
路径	`/api/bot/chat/completions`
鉴权 Header	`Authorization: Bearer <API_KEY>`
必填 Header	`X-Model-Id: <模型标识>`
模型标识	`openclaw_yuanbao_robot_model`
IP 白名单	仅龙虾主机出口
Token 返回类型	字符串（如 `"42"`）

最后这个 Token 返回类型是个大坑，后面单独说。

第二步：写一个最简代理

用 Python 标准库就够了，不用拉 FastAPI / Flask：

import json
from http.server import BaseHTTPRequestHandler, HTTPServer
import urllib.request

# 自己设置一个"安全通行证" key，避免被他人盗用
LOCAL_ACCESS_KEY = "sk-你的自定义密钥"

# 元宝原始 API Key（160位）
API_KEY = "原始key填这里"
MODEL_ID = "openclaw_yuanbao_robot_model"
YUANBAO_URL = "https://bot.yuanbao.tencent.com/api/bot/chat/completions"

class ProxyHandler(BaseHTTPRequestHandler):
    def do_POST(self):
        # 1. 验证调用方身份
        auth_header = self.headers.get('Authorization', '')
        if not auth_header or LOCAL_ACCESS_KEY not in auth_header:
            self.send_response(401)
            self.end_headers()
            self.wfile.write(b'{"error": "Unauthorized"}')
            return

        # 2. 路由：只接受标准 OpenAI 路径
        if self.path not in ["/v1/chat/completions", "/chat/completions"]:
            self.send_response(404)
            self.end_headers()
            return

        try:
            content_length = int(self.headers['Content-Length'])
            input_json = json.loads(self.rfile.read(content_length).decode('utf-8'))
            is_stream = input_json.get("stream", False)

            # 3. 转换为元宝格式
            yuanbao_payload = {
                "model": MODEL_ID,
                "messages": input_json.get("messages", []),
                "stream": False
            }

            req = urllib.request.Request(
                YUANBAO_URL,
                data=json.dumps(yuanbao_payload).encode('utf-8'),
                headers={
                    "Content-Type": "application/json",
                    "Authorization": f"Bearer {API_KEY}",
                    "X-Model-Id": MODEL_ID
                },
                method="POST"
            )

            with urllib.request.urlopen(req) as response:
                resp_json = json.loads(response.read().decode('utf-8'))

                # 4. 关键：强制转换 Token 为整数
                if "usage" in resp_json and resp_json["usage"]:
                    for k in ["prompt_tokens", "completion_tokens", "total_tokens"]:
                        if k in resp_json["usage"]:
                            resp_json["usage"][k] = int(resp_json["usage"][k])

                # 5. 根据 stream 参数决定返回
                if is_stream:
                    # 模拟 SSE 流式响应
                    self.send_response(200)
                    self.send_header("Content-Type", "text/event-stream")
                    self.end_headers()
                    content = resp_json["choices"][0]["message"]["content"]
                    chunk = {
                        "id": resp_json.get("id"),
                        "object": "chat.completion.chunk",
                        "model": "yuanbao",
                        "choices": [{"index": 0, "delta": {"content": content}, "finish_reason": "stop"}]
                    }
                    self.wfile.write(f"data: {json.dumps(chunk)}\n\n".encode())
                    self.wfile.write(b"data: [DONE]\n\n")
                else:
                    self.send_response(200)
                    self.send_header("Content-Type", "application/json")
                    self.end_headers()
                    self.wfile.write(json.dumps(resp_json).encode())
        except Exception as e:
            self.send_response(500)
            self.end_headers()
            self.wfile.write(str(e).encode())

if __name__ == "__main__":
    HTTPServer(("0.0.0.0", 16048), ProxyHandler).serve_forever()

核心要点：

自建 LOCAL_ACCESS_KEY：相当于本地”通行证”，调用方必须带这个 Key 才能用你的代理
路径重写：客户端发 /v1/chat/completions，代理内部改为 /api/bot/chat/completions
数据整形：后面重点说

第三步：解决最坑的”Token 是字符串”问题

现象

Page Assist、LobeChat、ChatBox 这些第三方客户端，默认开启 stream: true 流式调用 + 解析 usage 字段统计 token。

但元宝返回的 usage 字段长这样：

{
  "usage": {
    "prompt_tokens": "42",      // 注意是字符串
    "completion_tokens": "128",
    "total_tokens": "170"
  }
}

字符串”42” 不是数字 42。客户端按数字处理会报：

1	Cannot read properties of undefined (reading '0')

修复

在代理层强制转换：

if "usage" in resp_json and resp_json["usage"]:
    for k in ["prompt_tokens", "completion_tokens", "total_tokens"]:
        if k in resp_json["usage"]:
            resp_json["usage"][k] = int(resp_json["usage"][k])

转换后客户端就能正常显示了。

第四步：流式响应挂起的另一个坑

客户端默认开 stream: true，但元宝的 API 在流式结束时会发送一个没有 choices 字段的 usage 包（用来统计），导致客户端解析出错卡住。

两种解决方案：

方案 A：代理层关闭流式，自己模拟 SSE（简单稳定）

# 客户端请求 stream=False 时：直接返回 JSON
# 客户端请求 stream=True 时：内部用 stream=False 调元宝，再自己模拟 SSE 输出
yuanbao_payload["stream"] = False  # 永远关闭后端的流式

if is_stream:
    # 一次性拿全量，再分块发送
    ...

方案 B：透传完整字段（更强大但复杂）

如果想保留思考过程、工具调用这些高级特性，需要把元宝的完整字段透传：

# 思考块透传
chunk["choices"][0]["delta"]["reasoning_content"] = "..."

# 工具块透传
chunk["choices"][0]["delta"]["tool_calls"] = [...]

这一段代码量是上面简化版的 3-4 倍，建议先跑通方案 A，再按需升级。

第五步：部署与服务管理

部署位置

代理必须部署在白名单内的出口机器（这里就是元宝龙虾主机本身），否则 IP 限制直接 403。

端口选择

避开保留端口（80/443/22）和冲突高发区。16048 是个不错的选择（位于 10000-30000 黄金区间）。

systemd 服务化

# /etc/systemd/system/yuanbao-proxy.service
[Unit]
Description=Yuanbao Pure API Proxy
After=network.target

[Service]
Type=simple
User=root
WorkingDirectory=/opt/yuanbao
ExecStart=/usr/bin/python3 /opt/yuanbao/yuanbao_proxy.py
Restart=always
RestartSec=10

[Install]
WantedBy=multi-user.target

systemctl daemon-reload
systemctl enable yuanbao-proxy
systemctl start yuanbao-proxy
systemctl status yuanbao-proxy

反向代理（如需公网访问）

如果你想从其他机器也能用，可以用 frp 把内网端口映射到公网 VPS：

# frpc.ini
[yuanbao-api]
type = tcp
local_ip = 127.0.0.1
local_port = 16048
remote_port = 16048

然后客户端配置：

Base URL：http://你的公网IP:16048/v1
API Key：你的 LOCAL_ACCESS_KEY

最后的话

这类”包装非标 API”的需求，国内大厂基本都有。套路都差不多：

摸清厂商协议：路径、Header、Body 格式、响应格式
代理层做协议转换：路径重写、Header 注入、字段映射
数据整形：类型转换、空字段兜底、异常处理
流式模拟：很多大厂 API 流式不标准，需要代理层重新包装
安全加固：自建鉴权 Key、白名单、防滥用

这套方法论我在元宝、文心、通义、星火上都验证过，改改 URL 和字段名就能复用。

有问题欢迎评论区交流，或者告诉我你正在对接哪个厂的 API～