最近在玩各类 GPTs ,自己也做了个 Financial Expert Bot 读财报。但是很遗憾,它回答的有模有样,实际上数据全是错误的。
猜测是因为 ChatGPT 不支持读取扫描件,自定义 GPTs 很可能是根据文档之外的信源,或是训练阶段见过的数据回答了类似问题。
换了一个 PDF 接着问,效果还是不理想,根本不准确,明明文档里有数据,结果根本答不出来。
点开 Error analyzing ,看看到底是哪里出了问题。在 GPT 给出的代码中,我们发现,它使用的 PDF 解析器正是 PyPDF2 。这也是 Langchain 推荐的首个 PDF 解析器。
但是 PyPDF2 仅能够解析出所有文字,无段落信息,也无表格信息。而丢失了文档页面原来的分栏结构、表格的行列关系,信息是错乱的。所以答不出来。
解决方案:用专业的 ChatGPT 生态的文档问答工具:
https://chatdoc.com支持处理扫描件
支持处理排版复杂的文档
表格解析做的很好
展示原文出处,核实信息准确性