Paper Hub项目

前言

做科研的同学应该都有这样的体验：每天 Hugging Face Papers 页面挂着一堆新论文，想跟上节奏但英文摘要读起来费时费力，一天下来根本看不完。博主自己也深受其苦，索性动手搭了一个自动化的论文聚合 & 翻译工具，叫做 Paper Hub，开源在 GitHub 上，欢迎大家 follow 和 star ⭐

项目地址：https://github.com/zhaojingqian/Huggingface-Daily-Paper-Fetch-and-Trans

项目介绍

Paper Hub 会自动抓取 Hugging Face 每日 / 每周 / 每月的热门 AI 论文，用 LLM 翻译标题和摘要，提取关键词和核心贡献，还能调用 gpt-academic 把整篇 LaTeX 论文翻译成中文 PDF，最后通过一个现代化的 Web 界面对外发布。整套流程全自动跑，不用人工干预。

简单来说，你每天打开页面，就能看到今天 HF 热榜前三篇论文的中文摘要，想看全文的话直接点一个按钮就能下载中文 PDF，省去了自己翻的时间。

核心功能

功能	说明
📅 每日 Top 3	每天自动抓取当日热榜前 3 篇，翻译摘要 + 生成全文中文 PDF
📚 每周 Top 10	每周自动汇总本周热榜前 10 篇
📆 每月 Top 10	每月自动汇总本月热榜前 10 篇
🤖 摘要翻译	LLM 翻译标题、摘要，自动提取关键词和核心贡献
📄 全文翻译	gpt-academic LaTeX 插件逐段翻译，重新编译中文 PDF
🌍 Web 发布	响应式界面，首页汇总三类内容，Tab 导航
🔍 全局搜索	支持按标题、关键词检索所有已入库论文
⭐ 收藏夹	一键收藏感兴趣的论文，随时回看
🔄 增量处理	断点续传，已翻译内容自动跳过，不重复消耗 API

除了定时任务，还支持手动输入 arXiv ID 按需翻译，看到感兴趣的论文随时可以丢进去处理。搜索和收藏功能也挺实用——论文多了之后全靠手翻列表找不现实，直接搜关键词省事很多，收藏夹则方便把想细读的先存着，不用怕刷新页面找不回来。

技术栈

整个项目基于 Python 开发，核心依赖：

HF 抓取：调用 HF Papers 页面接口，统一解析 arXiv ID
摘要翻译：arXiv API 拉取元数据，LLM 翻译，生成双语 HTML
全文翻译：gpt-academic Docker 容器内的 LaTeX 翻译插件，pdflatex 重新编译 PDF，支持最多 3 次自动重试
Web 服务：轻量 Python Web Server，端口 18080，全页面响应式设计

定时任务用 crontab 托管，Web 服务用 systemd 管理，部署完基本不用再管。

一些细节

全文翻译这块是博主花时间比较多的部分。这里要特别感谢开源项目 gpt_academic（binary-husky，⭐70k+），全文翻译的核心能力来自它内置的「Latex翻译中文并重新编译PDF」插件，Paper Hub 并没有重新造轮子，而是直接复用了这个功能——在此真诚致谢，这个项目本身也非常值得关注。

博主做的事情是在它之上封装了一套自动化调度逻辑：论文 LaTeX 源码结构差异很大，编译经常失败，所以额外加了进程组级别的 kill 防止孤儿进程，单次 pdflatex 超时设为 300 秒，整体最多重试 3 次。实测下来大部分论文都能成功生成中文 PDF，少数没有 LaTeX 源码或者编译实在过不去的会自动跳过，摘要翻译仍然可用。

每篇全文翻译大概要 5～15 分钟，主要瓶颈在 LLM 调用和 pdflatex 编译，日常跑下来还好，毕竟是后台异步处理的。

写在最后

这个项目算是博主自用顺手开源出来的，目前功能基本稳定，后续有时间会继续迭代。如果你也有跟进 AI 论文的需求，不妨 clone 下来自己部署一套；如果觉得有用，欢迎给个 star ⭐，也欢迎 follow 博主的 GitHub，一起交流～

再贴一次：https://github.com/zhaojingqian/Huggingface-Daily-Paper-Fetch-and-Trans

本文由 Claude Sonnet 4.6 辅助生成。

个人

#分享 #学习 #项目

Paper Hub项目

http://zhaojingqian.github.io/2026/02/21/Paper-Hub项目/

作者

Zhao Jingqian

发布于

2026年2月21日

更新于

2026年2月21日

许可协议

秋招blog-面经篇上一篇