V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cccclk
V2EX  ›  程序员

微调托书文档信息提取的思路?

  •  
  •   cccclk · 253 天前 · 759 次点击
    这是一个创建于 253 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想要提取这种托书里面的字段,应该用什么模型去微调比较好.

    可以拿来训练的样本量不会太多.拿过 paddlenlp 的 UIE-X 训练过,感觉效果不是会很好,对多行文本支持不怎么样.

    有没有大佬能指点一下思路

    4 条回复    2024-03-14 16:55:00 +08:00
    lucifer69
        1
    lucifer69  
       253 天前
    这种固定位置的印刷字体文档,不能直接 ocr (或者切割图片后各部分单独 ocr )后提取吗?
    cccclk
        2
    cccclk  
    OP
       253 天前
    @lucifer69 也不是完全固定的,需要适配多种奇奇怪怪的格式
    musi
        3
    musi  
       253 天前
    带着位置信息一起发给 gpt ,让 gpt 处理
    cccclk
        4
    cccclk  
    OP
       253 天前
    @musi 打算自己训练 GPT 成本太高也不稳定
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5189 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:23 · PVG 17:23 · LAX 01:23 · JFK 04:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.