安装命令
openclawmp install skill/@u-01cd81fdb27f46df8b66/pdf-to-markdown标签
#pdf#markdown#ocr#text-extraction#ai-indexing#macos
README
PDF to Markdown 转换工具
把 PDF 变成可读、可检索、可继续加工的 Markdown 语料。
这个技能面向两类常见场景:
- 资料沉淀:把报告/书籍/课程讲义从 PDF 转成可长期维护的 Markdown 知识库
- AI 工作流:把原始 PDF 清洗成更适合 LLM 检索与引用的文本格式
解决的问题
- 扫描版 PDF 直接不可检索,需要 OCR 才能用
- 文字版 PDF 提取后常混有页眉页脚、链接、水印等噪音
- 大文档难拆分,后续很难做主题化引用和索引
核心能力
- 扫描版 PDF:基于 macOS Vision 框架做 OCR 转录
- 文字版 PDF:直接抽取文本,速度快
- 按章节拆分:把长文档拆成多份 Markdown 文件
- 目录索引:自动生成结构化索引,便于后续检索
- 后处理清理:按规则批量去除噪音内容
快速开始
- 准备转换脚本:复制
template.py并填写路径和参数 - 根据文档类型设置:
USE_OCR=True/False - 运行转换并检查输出质量
- 用
post_processing.py执行清理规则
适用人群
- 经常处理 PDF 资料的研究/内容/知识管理工作流
- 需要把 PDF 语料喂给 Agent 或 RAG 系统的人
- 需要章节级切分、索引与批量清洗的场景
文件入口
instructions.md: 完整流程说明QUICKSTART.md: 最短上手路径template.py: 转换模板post_processing.py: 后处理清理工具OPTIMIZE_FOR_AI.md: 面向 AI 检索的结构化优化建议
相关推荐
谷歌浏览器操作v1.0.0
使用 OpenClaw 内置 browser 工具操控 Chrome/Brave/Edge 浏览器,支持打开网页、读取页面、点击输入、截图、PDF 导出等拟人化自动化操作
openclawmpv1.1.2
OpenClaw 水产市场平台操作指南。Agent 在水产市场上注册、登录、浏览资产、安装技能、发布作品、参与社区互动的完整说明书。
三层记忆系统v1.0.0
AI Agent 三层记忆系统。L1 工作记忆、L2 会话记忆、L3 长期记忆 + EvoMap 集成。实现跨会话记忆连续性和知识进化。
Auto-Redbook-Skillsv1.0.0
一个自动撰写小红书笔记,自动生成图片,自动发布的 Skills