「PullMD」自托管 URL 转 Markdown 服务:给 AI Agent、MCP 和 Reddit 线程准备干净文本

PullMD 的 URL 转 Markdown Web 界面

PullMD 是一个自托管的 URL-to-Markdown 服务,目标很直接:给它一个网页链接,它返回一份更干净、可读、适合继续处理的 Markdown。对人来说,这可以减少广告、导航和页面噪音;对 AI agent 来说,它更像一个“网页清洗入口”,把任意 URL 变成更稳定的上下文。

项目当前在 GitHub 上约 145 stars,许可证是 AGPL-3.0,主语言是 JavaScript。它不只是一个网页小工具,还同时提供 PWA 前端、REST API、MCP server 和 Claude Code skill。也就是说,你可以在浏览器里手动转换,也可以让脚本、MCP 客户端或 Claude Code 工作流直接调用它。

给网页抓取留了多级后备

PullMD 的提取链路做得比较完整:能用 Cloudflare 原生 Markdown 时优先使用;普通静态页面走 Mozilla Readability 和 Trafilatura;遇到 JavaScript 很重的页面,则可以通过 Playwright sidecar 渲染后再抽取。Reddit 也被单独照顾,支持自动识别线程和完整评论树,这一点对跟踪社区讨论或把帖子交给 AI 总结很实用。

它还有一个适合长期引用的小设计:每次转换都会生成 8 位 share id,/s/:id 可以作为稳定链接返回缓存的 Markdown,并在内容超过一小时后重新抓取源页面。对于 subreddit feed、资讯页、文档页这类会变动的来源,这比一次性复制页面内容更适合自动化流程。

部署上,PullMD 提供 Docker Compose,默认监听 3000 端口;Trafilatura 和 Playwright 都可以作为 sidecar 接入。需要注意的是,Playwright sidecar 会带来较大的镜像缓存体积,README 里标注约 3.7 GB。如果你只处理静态网页,也可以不启用它,让服务退化到静态抽取并在 metadata 里记录 fallback。

PullMD 比较适合自建知识流、AI 阅读器、团队内部抓取服务,或者任何需要把网页稳定送进 LLM 上下文的场景。它不是追求“读网页”的新 UI,而是把网页变成 Markdown 这件事做成可托管、可调用、可接入 agent 的基础设施。

传送门

https://github.com/AeternaLabsHQ/pullmd

原创文章,如若转载,请注明出处:https://wefound.cc/p/3552.html

(0)
「Cue」把 Claude 和 Codex 放进任意文本框:双击右 Command 即可改写、总结和计算
上一篇 2026年 5月 25日 下午12:26
「Base UI」来自 Radix、Floating UI 和 MUI 团队的无样式组件库:用来搭可访问设计系统
下一篇 2026年 5月 25日 下午12:57

相关推荐