怎么快速分析一个 PDF,用 ChatGPT 式的对话、聊天方式快速阅读。

chatpdf.com(可能需科学上网)

ChatPDF 最近火出了圈,你上传一篇文章或者一本书的 PDF,它用 GPT 一会儿就能分析完,而后你可以就 PDF 内容随意提问。

开发者介绍,说学生特别喜欢这个工具,用它来啃大部头的参考书。

因为太受欢迎,开发者火速加上了付费功能,免费用户最多分析少于 50 页的 PDF…这可能就傻眼了,比如众多研究生朋友要是想分析一本十几万字的书籍作为测试,绝对超过 50 页了。

经过笔者测试,最终找了一本喜欢的 epub 书籍,把它解压缩后得到二十几个 xhtml 文件,再把所有文件合并为一个大 txt 文件,接着洗掉所有 html 代码,最后在 word 里编辑这个 txt 文件,把字号缩小到 5pt,最终生成了一个 10 页的 PDF。

这么生成的 PDF 只有文字、没有任何结构,拿它去做测试,这才发现 ChatGPT 的真实能力:它“理解”文字的同时,还准确分析出了这本书的书名、作者、章节等各种信息。

用 ChatGPT 聊天方式阅读书籍等效果很有趣,比通读一遍更省力,比只读摘要更充实,而且可以就着原始内容提出真正的问题、就像在请教作者本人一样。

然而,缺点也很明显,因为现阶段功能极简,所以分析结果和聊天过程都无法直接导出。

虽然火出圈,但我觉得我还是有义务澄清一下很多人的误会

1)chatpdf并不能增强chatgpt阅读长文的能力,其能力依然锁定在4096个token内

2)pdf的所谓阅读的做法是把文章分成无数个上述长度内的片段然后生成embedding。你提问,依赖embedding召回,最后再去问一次chatgpt

3)字体变小会让成本加倍增长