Paper Hub项目
前言
做科研的同学应该都有这样的体验:每天 Hugging Face Papers 页面挂着一堆新论文,想跟上节奏但英文摘要读起来费时费力,一天下来根本看不完。博主自己也深受其苦,索性动手搭了一个自动化的论文聚合 & 翻译工具,叫做 Paper Hub,开源在 GitHub 上,欢迎大家 follow 和 star ⭐
项目地址:https://github.com/zhaojingqian/Huggingface-Daily-Paper-Fetch-and-Trans
项目介绍
Paper Hub 会自动抓取 Hugging Face 每日 / 每周 / 每月的热门 AI 论文,用 LLM 翻译标题和摘要,提取关键词和核心贡献,还能调用 gpt-academic 把整篇 LaTeX 论文翻译成中文 PDF,最后通过一个现代化的 Web 界面对外发布。整套流程全自动跑,不用人工干预。
简单来说,你每天打开页面,就能看到今天 HF 热榜前三篇论文的中文摘要,想看全文的话直接点一个按钮就能下载中文 PDF,省去了自己翻的时间。
核心功能
| 功能 | 说明 |
|---|---|
| 📅 每日 Top 3 | 每天自动抓取当日热榜前 3 篇,翻译摘要 + 生成全文中文 PDF |
| 📚 每周 Top 10 | 每周自动汇总本周热榜前 10 篇 |
| 📆 每月 Top 10 | 每月自动汇总本月热榜前 10 篇 |
| 🤖 摘要翻译 | LLM 翻译标题、摘要,自动提取关键词和核心贡献 |
| 📄 全文翻译 | gpt-academic LaTeX 插件逐段翻译,重新编译中文 PDF |
| 🌍 Web 发布 | 响应式界面,首页汇总三类内容,Tab 导航 |
| 🔍 全局搜索 | 支持按标题、关键词检索所有已入库论文 |
| ⭐ 收藏夹 | 一键收藏感兴趣的论文,随时回看 |
| 🔄 增量处理 | 断点续传,已翻译内容自动跳过,不重复消耗 API |
除了定时任务,还支持手动输入 arXiv ID 按需翻译,看到感兴趣的论文随时可以丢进去处理。搜索和收藏功能也挺实用——论文多了之后全靠手翻列表找不现实,直接搜关键词省事很多,收藏夹则方便把想细读的先存着,不用怕刷新页面找不回来。
技术栈
整个项目基于 Python 开发,核心依赖:
- HF 抓取:调用 HF Papers 页面接口,统一解析 arXiv ID
- 摘要翻译:arXiv API 拉取元数据,LLM 翻译,生成双语 HTML
- 全文翻译:gpt-academic Docker 容器内的 LaTeX 翻译插件,
pdflatex重新编译 PDF,支持最多 3 次自动重试 - Web 服务:轻量 Python Web Server,端口 18080,全页面响应式设计
定时任务用 crontab 托管,Web 服务用 systemd 管理,部署完基本不用再管。
一些细节
全文翻译这块是博主花时间比较多的部分。这里要特别感谢开源项目 gpt_academic(binary-husky,⭐70k+),全文翻译的核心能力来自它内置的「Latex翻译中文并重新编译PDF」插件,Paper Hub 并没有重新造轮子,而是直接复用了这个功能——在此真诚致谢,这个项目本身也非常值得关注。
博主做的事情是在它之上封装了一套自动化调度逻辑:论文 LaTeX 源码结构差异很大,编译经常失败,所以额外加了进程组级别的 kill 防止孤儿进程,单次 pdflatex 超时设为 300 秒,整体最多重试 3 次。实测下来大部分论文都能成功生成中文 PDF,少数没有 LaTeX 源码或者编译实在过不去的会自动跳过,摘要翻译仍然可用。
每篇全文翻译大概要 5~15 分钟,主要瓶颈在 LLM 调用和 pdflatex 编译,日常跑下来还好,毕竟是后台异步处理的。
写在最后
这个项目算是博主自用顺手开源出来的,目前功能基本稳定,后续有时间会继续迭代。如果你也有跟进 AI 论文的需求,不妨 clone 下来自己部署一套;如果觉得有用,欢迎给个 star ⭐,也欢迎 follow 博主的 GitHub,一起交流~
再贴一次:https://github.com/zhaojingqian/Huggingface-Daily-Paper-Fetch-and-Trans
本文由 Claude Sonnet 4.6 辅助生成。