rocky55 最近的时间轴更新
rocky55

rocky55

V2EX 第 384522 号会员,加入于 2019-02-16 21:45:46 +08:00
rocky55 最近回复了
143 天前
回复了 rocky55 创建的主题 分享创造 从 PDF 和图片提取表格的小工具
@geeekr 如果发票是 PDF 我觉得直接写代码取会更好,如果是图片我也觉得需要针对发票优化,确实没有发票这种数据去到模型里,严格来说发票很难定义成表格结构。
146 天前
回复了 rocky55 创建的主题 分享创造 从 PDF 和图片提取表格的小工具
我的做法是 PDF 到图片,然后训练模型得到表格的结果,[extract table from pdf]( https://tableninjia.com/post/how_extract_table_from_pdf ) 和 [extract table from image]( https://tableninjia.com/post/how_extract_table_from_image) 有写简单的 pipline
100 w 前缀树的方式存储应该也不会太占内存,如果词不是很长,如果是英文应该就更省了
100 w 好像不多直接放内存,AC 自动机,速度应该不会慢
2020-08-06 18:26:03 +08:00
回复了 Beeethoven 创建的主题 程序员 国内有什么好用的 PDF 文档 OCR 产品吗
或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
2019-02-17 09:02:12 +08:00
回复了 wvvW 创建的主题 算法 自然语言处理序列标注算法实现
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5623 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 06:50 · PVG 14:50 · LAX 22:50 · JFK 01:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.