普通视图

Received today — 2025年12月18日

PDF Craft – 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换

作者青小蛙
2025年12月18日 20:21

先看图1:

PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 1
左侧是扫描版 PDF 文件,右侧是转换后的 Markdown 格式

再看图2:

PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 2
左侧是带数学公式的 PDF,右侧是转换为 ePUB 格式的电子书(转换为LaTeX)

这两个效果,均是使用基于 DeepSeek OCR 的 PDF Craft 实现,非常的赞。

还有图3

群里的小伙伴推荐:

PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 3

PDF Craft 是什么?

PDF Craft 是工作流 IDE 软件 OOMOL Studio 使用 MIT 授权开源的项目,只做一件事:

将 PDF 文件转换为各种其他格式,并且专注于处理扫描版书籍的 PDF 文件。

由于代码开源,所以你可以使用自己的硬件,完全本地化操作,无需联网。

PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 4

PDF Craft 的工作原理

PDF Craft 使用 DeepSeek OCR 进行 PDF 文档的内容识别,并能准确提取正文内容、脚注、公式、图片、表格等内容,同时过滤页眉、页脚等干扰信息。最终将 PDF 格式转换为 Markdown 或 EPUB 格式,尤其是扫描版 PDF,即保持了原书的内容完整性,又提升了可读性。

PDF Craft 专门针对数学公式做了很多细节处理,对科研人员、学生、常读论文的人群会有很大帮助。

转换为 LaTeX

下图是转换带数学公式的 PDF 到 Markdown 格式后的样子,注意左边的 .md 文件源码,是标准的 LaTeX 语法:

PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 5

基于 DeepSeek OCR

这里就不得不说一下 DeepSeek OCR 了,这是 DeepSeek 在两个月发布一种基于多模态大模型的光学字符识别技术,它能够像人类一样“阅读”并理解图片中的文字、表格和复杂版面,将其转化为可编辑的高质量结构化数据。

如何使用 PDF Craft

有两种方式使用 PDF Craft

  1. 自己部署
  2. 直接使用在线演示平台。

自托管安装指南

完整的安装过程非常技术化了,有官方说明书

青小蛙在这里列一下必备条件吧:

  • Python >= 3.10, < 3.14(推荐 3.11.16)
  • Poppler(用于 PDF 解析和渲染)
  • NVIDIA GPU,支持 CUDA 11.8 或 12.1
  • 显存 16 GB 以上(推荐 24 GB 或更高)

主要流程:配置 CUDA、安装 PyTorch、安装 pdf-craft、安装 Poppler,然后就能使用了。

嫌麻烦的同学,可以直接:

PDF Craft 在线演示平台

这个就简单易用,直接用浏览器打开上面的网址就行了。(需要注册)

PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 6

我也没有扫描版 PDF 呀,你们快去试试,记得回来告诉我效果如何。

这有几个邀请码可以领:

每个人只能生成5个邀请码。

另外由于是演示目的,所以这个站点会有额度限制,用的多需要付费(也支持 API)。

如果常用,还是推荐自托管(如果你有硬件的话 😂


原文:https://www.appinn.com/pdf-craft/


相关阅读


©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。

Received before yesterday

Tally.so – 不限量、不收费,随便用的表单服务,可以收集资料、文件、投票、评分

作者青小蛙
2025年11月17日 16:58

作为开发者、团队负责人、活动组织者,群主、家长,难免碰到需要向很多人收集信息的时候,比如开发者收集用户反馈;群主、家长收集报名、投票;活动策划人收集报名表、物资清单、参与者反馈等数据。

这个时候,在微信里有群接龙管家、腾讯文档表单,就完了!

哦不好意思,这个世界不止微信,如果你需要在其他地方处理这些事情,还可以用 jinshuju、wjx 之类的第三方产品。就完了!

如果范围再大点,我们还可以用表单服务,比如此前介绍过的:《HeyForm – 开源表单系统,可自托管。用来收集用户提交的数据》,但毕竟需要自己动手,有够麻烦的。

主角终于要出场了:

Tally.so - 不限量、不收费,随便用的表单服务,可以收集资料、文件、投票、评分 36

Tally.so 是什么

Tally.so 是一款可以在合理使用范围内完全免费、不限量的在线表单服务,可以用来收集信息、做调查、上传文件,并且可以与 Google Sheets、Notion、Slack 等工具的无缝集成,非常适合小团队、社群、个人使用。

合理使用范围

Tally 给出了一个超出合理范围的数据:

  • 持续收集大量提交 50000 / 月
  • 持续收集大量文件上传 100 GB/月或 500 GB 的总存储空间
  • 持续发送大量电子邮件通知 50 000 / 月

如果偶尔一个月达到这个量级也还可以,但持续几个月就不行了。青小蛙看了眼 50000条/月这个数,随便用吧:

完全用不完、根本用不安。

可以直接在微信用

就…很赞,很漂亮:

也可以将链接 https://tally.so/r/rjj6GR 分析给别人。

你可以直接在页面上完成调查,非常的方便。

如何使用 Tally

Tally 提供了很多漂亮的模板可以直接用,也可以通过 Notion 式的 / 代码块方式来编辑表单:

Tally.so - 不限量、不收费,随便用的表单服务,可以收集资料、文件、投票、评分 37

还可以在问题中设置得分:

Tally.so - 不限量、不收费,随便用的表单服务,可以收集资料、文件、投票、评分 38

虽然界面是英文的,但是你可以制作出完全中文的表单。

一个例子

数据导出

你可以在 Tally 的后台将收集到的数据导出为 .csv 文件,或者直接连到第三方服务,比如前面提到的 Google Sheets、Notion、Webhooks、Discord、n8n、Excel 等等服务中去。

获取


原文:https://www.appinn.com/tally-so/

关注我们

想要推荐自己的应用:https://meta.appinn.net/c/faxian/10

爱发电:https://afdian.com/a/qingxwa (打赏我们,让我们更好的创作)


相关阅读


©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。

Karakeep – 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】

作者青小蛙
2025年11月11日 11:36
Karakeep - 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】 48

Karakeep 是一款开源的网络书签工具,在 GitHub 获得了超过 20000 颗🌟。可以帮你保存链接、笔记、图片、视频、PDF 等等,曾用名 Hoarder(译为囤积者)。它拥有一个 iOS 应用程序和一个 Android 应用程序,可以收藏、浏览书签,拥有 Chrome、Firefox 浏览器插件,用于快速收藏书签。@Appinn

(这是小众软件关于 Karakeep 的第一期内容,未来还会继续介绍,包括安装、使用、AI 整合、技巧等等)

它通过自带的 Chrome 无头浏览器(是的自带一个浏览器)可以保存完整网页(同时辅助使用 monolith 保存网页),并同时为网页生成截图,实现完美离线保存。

Karakeep - 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】 49

它拥有 OCR 功能,可以从图像中提取文本,进行检索

它可以通过 RSS 源自动囤积、收藏。

它可以标记、高亮显示收藏的网页文字。

它可以使用 yt-dlp 自动保存视频。

它支持通过 Floccus 与浏览器书签自动同步。

它可以自动检测失效的链接。

它可以多用户同时使用。

为什么最适合 2026 年?

因为 2025 年马上要过完了,自托管这种事情,拖一、两个月很正常吧,正式用的时候,2026了 😂

因为自动化,也因为 AI。这是青小蛙见过的最易于使用的自动化、AI 书签工具。

Karakeep - 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】 50

它拥有丰富的社区资源,包括 Raycast / Raycast 扩展、Obsidian 插件、Telegram 机器人、Python-API、FreshRSS/Hacker News 等第三方同步工具。

它支持规则引擎,通过创建自动化规则来管理标签、列表,启动下载完整页面存档等操作。

它支持 LLM(大语言模型,支持本地模型),可为每一个书签自动生成标签、总结。

它支持 REST API、WebHook、

它自带 MCP 服务器,让书签库本体变成你自己的 MCP 服务器,通过与 AI 聊天,来查询、创建书签。

比如你可以问 AI:帮我找一下上周收藏的 Chrome 插件。

Karakeep - 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】 51

关于 Karakeep

Karakeep(原名 “Hoarder”)是一款开源的 “Bookmark Everything “应用程序,它采用人工智能技术自动标记您输入的内容。它把自托管作为核心原则中的一个“第一公民”对待。(这话意思就是你们都去自托管吧)

Karakeep 使用 Meilisearch 进行全文搜索,依赖 Chrome 浏览器进行抓取,依赖 OpenAI/Ollama 进行人工智能标记。不过,如果不需要这些功能,也可以在不依赖它们,单独运行 Karakeep。

Karakeep 这个名字

Karakeep 这个名字的灵感来自阿拉伯语 “كراكيب” (karakeeb),这是一个口语化的词语,通常用来指杂乱无章、零星物品或看似杂乱无章但往往具有个人价值或隐藏用途的物品。

它让人联想到一个凌乱的抽屉或被遗忘的盒子,里面装满了你舍不得扔掉的东西–因为不知何故,这些东西很重要(或者更有可能,因为你是个囤积狂!)。

而其曾用名 Hoarder,本身就带有“囤积者、收藏狂”的意思,简直是为松鼠症患者们量身打造。

演示版

Karakeep 官方提供了一个只读的演示版本,现在就可以去试试:

这个系列

青小蛙使用 Karakeep 不久,今天刚刚更新了0.28.0 版本,用起来十分顺手,所以推荐给大家。

Karakeep - 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】 52

新增了文本笔记中的任务清单功,只需要键入 - [ ]就行了,注意中间有两个空格(-空格[空格]):

Karakeep - 最适合 2026 年使用的私人网络书签,可自托管【第一期:纯功能介绍】 53

未来还要折腾挺多的,比如如何绕过爬虫,完整保存微博、小红书等页面,咱慢慢来吧。

感兴趣的同学可以在小众软件的社区发帖一起讨论。


原文:https://www.appinn.com/karakeep-introduction-1/

关注我们

想要推荐自己的应用:https://meta.appinn.net/c/faxian/10

爱发电:https://afdian.com/a/qingxwa (打赏我们,让我们更好的创作)


相关阅读


©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。

❌