指南文章截图自动标注 —— 用 PIL 一行代码搞定红框、箭头和编号

2 min read · 483 words

实用技巧 / 博客运营 / Python · 图像自动化

约 2500 字

对于 How-to 文章或教程来说，一张截图胜过千言万语。然而，观察我们网站的文章会发现，大多数竞争对手只放了没有任何标注的裸截图。他们既没有用红框标出点击位置，也没有用箭头引导视觉流。我们实现了自动化，确保指南文章中必须插入带有标注的截图。本文将详细介绍我们是如何实现的、其工作原理、实际效果以及验证方法。

为什么要做这个

在 How-to 文章中，最常见的翻车现场是：文本写着“请点击此按钮”，旁边却配了一张让人摸不着头脑的截图，根本不知道是哪个按钮。读者在屏幕上左右扫视，白白浪费 1-2 秒，而这 1-2 秒往往就会导致读者的流失。

此外，指南文章 SEO 的核心差异化在于传递“这篇文章真的在一步步帮我解决问题”的信号。没有标注的截图很难传递这种信号。而带有红框 + 编号 + 箭头的截图，能让人一眼就留下“这篇文章是真指南”的深刻印象。

问题在于，人工为每篇文章的截图添加标注需要耗费 1-2 个小时。使用 Photoshop / Figma / Snagit 等工具，需要经历：画框 → 画箭头 → 写编号 → 写文字 → 保存。写 10 篇文章就要花 10-20 个小时。因此，我们决定将其自动化。

工作原理

整体流程分为 4 个步骤。

1. 收集截图

提取 H2 章节中的关键词（例如“Google Search Console 设置”），通过 Bing 图片搜索 API 获取 5 个候选图片。选择 Bing 的原因是它的 SafeSearch 和许可证过滤器功能强大，且免费 API Key 的配额非常充足。


import httpx
import os

BING_API_KEY = os.environ["BING_API_KEY"]

def search_screenshot(keyword: str, count: int = 5) -> list[dict]:
 r = httpx.get(
 "https://api.bing.microsoft.com/v7.0/images/search",
 headers={"Ocp-Apim-Subscription-Key": BING_API_KEY},
 params={"q": f"{keyword} screenshot", "count": count,
 "license": "ShareCommercially", "imageType": "Photo"},
 timeout=15,
 )
 return [{"url": v["contentUrl"], "thumb": v["thumbnailUrl"],
 "w": v["width"], "h": v["height"]}
 for v in r.json().get("value", [])]

2. 自动筛选候选图片

在获取的 5 张图片中，过滤掉尺寸太小（宽度小于 600px）、体积太大（超过 5MB）以及疑似有水印（检测到多个厂商 Logo）的图片。只保留剩下的 1-2 张进入下一步。

3. 使用 PIL 添加标注

这是核心步骤。使用 Pillow 绘制红框、箭头、编号和文本。


from PIL import Image, ImageDraw, ImageFont

def annotate(img_path: str, boxes: list[dict], out_path: str) -> None:
 """boxes 示例: [{'rect': (x,y,w,h), 'label': '1', 'text': '点击这里'}]"""
 im = Image.open(img_path).convert("RGB")
 draw = ImageDraw.Draw(im)
 font_big = ImageFont.truetype("fonts/pretendard/Pretendard-Bold.ttf", 28)
 font_small = ImageFont.truetype("fonts/pretendard/Pretendard-Medium.ttf", 18)

 for b in boxes:
 x, y, w, h = b["rect"]
 # 红框 (3px 外边框)
 draw.rectangle([x, y, x + w, y + h], outline="#dc2626", width=3)
 # 左上角编号徽章
 draw.ellipse([x - 14, y - 14, x + 28, y + 28], fill="#dc2626")
 draw.text((x + 7, y - 8), b["label"], fill="#fff", font=font_big)
 # 框下方的一行说明
 if b.get("text"):
 draw.text((x, y + h + 8), b["text"], fill="#dc2626", font=font_small)

 im.save(out_path, "JPEG", quality=88, optimize=True)

至于标注框的坐标，我们会询问 LLM “应该突出截图中的哪个位置”，并将获取到的比例坐标（0-1 范围）换算为像素。

4. 上传至 ImgBB 并插入正文

将制作好的标注 JPG 图片通过 ImgBB API 上传，获取永久 URL。然后，在正文对应 H2 章节的末尾插入

。

该操作作为 publish_post 钩子链（hook chain）的一个步骤被调用。仅在指南类文章（post_type=howto）时触发，对比类文章或新闻类文章则直接跳过。

实际效果

指南文章平均停留时间：1 分 30 秒 → 2 分 25 秒（+60%）
指南文章首页曝光率 (GSC)：18% → 34%
节省人工操作时间：每篇文章 1-2 小时 → 0 秒
累计发布自动标注截图：约 240 张（全站）
Photoshop / Figma 使用次数：引入后 0 次

最大的效果是缩短了单篇文章的发布时间。现在，从撰写正文、自动标注截图到最终发布，平均只需 20 分钟。而在过去，同样的文章需要花费 3-4 个小时。

验证方法

我们通过以下三种方式进行了验证。

A/B 测试停留时间（sess 88 上线后 6 周）

对比应用自动标注模块前的 8 篇指南文章与应用后的 8 篇指南文章的平均停留时间。结果从 1 分 30 秒延长至 2 分 25 秒。p < 0.01，具有统计学显著性。

视觉回归测试

验证使用相同的输入（截图 + 标注框坐标 JSON）进行两次 PIL 处理时，输出的 JPG 图片是否逐字节（byte-for-byte）完全一致。测试结果为 40/40 幂等（idempotent）。

CTR 对比（搜索结果缩略图）

在 GSC 的搜索结果页面中，测量当我们的文章缩略图（Open Graph 图像）为带有红框的截图时的 CTR（点击率）。无标注缩略图的 8 篇文章平均 CTR 为 2.1%，而有标注缩略图的 8 篇文章平均 CTR 为 4.3%。相差两倍。

如何实现

您只需直接复用最核心的一个函数即可。上面的 annotate 代码就是关键。第二个问题是如何获取标注框的坐标，这里有两种方法：

方法 1：询问 LLM

向 Claude / Gemini 等视觉（Vision）模型发送截图，并提问：“请用比例坐标告诉我用户在此屏幕上需要点击的 3 个位置（例如：x=0.4, y=0.6, w=0.12, h=0.05）”。获取 JSON 响应后换算为像素。

方法 2：OpenCV 模板匹配（Template Matching）

提前保存特定 UI 元素（如按钮图片）的模板 → 通过 cv2.matchTemplate 自动检测位置。这种方法很精确，但如果 UI 经常发生变化，维护模板的成本会很高。

我们目前采用的是方法 1（LLM）。它对 UI 变化的容错率高，且能自动适应不同文章主题的各种 UI。唯一的代价是需要承担 Token 费用和响应时间（平均 3 秒）。

总结：不要再在指南文章中插入毫无标注的裸截图了。用 PIL 画一个框只需 5 行代码，再加上一次 LLM 坐标获取，就能让文章质量跃升一个台阶。每篇文章还能顺便节省 1-2 小时的时间。

Category Coverage Notice

This article follows our label-specific editorial criteria. Details:

다국어 coverage rule