V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zzz22333
V2EX  ›  问与答

试卷切割有啥好的方案吗,试过百度云和阿里云,效果都不太行。

  •  
  •   zzz22333 · 4 天前 · 1684 次点击
    17 条回复    2026-02-06 16:45:53 +08:00
    zzz22333
        1
    zzz22333  
    OP
       4 天前
    这个是原图,阿里切出来长这样 百度云切出来长这样 是要对图片提前处理吗?
    jstony
        2
    jstony  
       4 天前   ❤️ 1
    分解步骤,不要指望一句提示词搞定。
    先 ocr ,获得文本和坐标,然后把文本扔给大模型,问他怎么拆题,根据大模型给的结果再去拿到每个题目对应的坐标,然后获得最终的拆题。ocr 的要求不用太高,识别错误没关系,大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型,让他直接给你每个题目的坐标,你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。
    zzz22333
        3
    zzz22333  
    OP
       4 天前
    @jstony #2 我试过用大模型,效果也一般,而且大模型有个问题,就是一致性较差。最开始用 gemini 2.0-flash ,效果很差, 后面换成 gemini 3.0-preview 就好一些。
    wangwaner
        4
    wangwaner  
       4 天前 via iPhone   ❤️ 1
    二楼正解,你需要做一个 agent ,
    1.首先用 deepseek-ocr (一个用 DeepSeek 的 ocr 模型)对文字进行识别,
    2.然后把步骤 1 识别出来的结果(带文字和坐标的)输给文字大模型,让他给你返回题目的分割
    3.(可选)将最终的切割结果再次 ocr ,文本发给大模型,让他验证题目 shifowanzheng
    (当然你上高级的多模态大模型也可就是数量多了有亿点费钱)
    cryptovae
        5
    cryptovae  
       4 天前   ❤️ 2

    这样?
    haohaozaici
        6
    haohaozaici  
       4 天前
    试了下夸克和 wps ,都可以很精准按题目分割图片
    zzz22333
        7
    zzz22333  
    OP
       4 天前
    @cryptovae #5 是这个意思,怎么做到的呢
    zzz22333
        8
    zzz22333  
    OP
       4 天前
    @wangwaner #4 大概懂了,我是直接把图片发给 OCR ,让它输出坐标。没有第一步,所以精度不是很高。
    fadaixiaohai
        10
    fadaixiaohai  
       4 天前
    @cryptovae #9 这个感觉很专业啊
    zzz22333
        11
    zzz22333  
    OP
       4 天前
    @cryptovae #9 这个效果挺好的呀,我在思考怎么实现切割。
    cryptovae
        12
    cryptovae  
       4 天前
    @zzz22333 #11 和上面说的一样,ocr 出完整内容,让大模型切割就行了
    zzz22333
        13
    zzz22333  
    OP
       4 天前
    @wangwaner #4 AI 评价这个方案很靠谱,我试试。
    wangwaner
        14
    wangwaner  
       4 天前 via iPhone
    好的哇👍🏻
    @zzz22333
    zzz22333
        15
    zzz22333  
    OP
       4 天前
    @cryptovae #12 用了 MinerU 这个基本满足我的需求了,比之前的阿里云,百度云强太多,甚至还是免费....
    None2
        16
    None2  
       3 天前
    看标题就想到 MinerU 了
    zzz22333
        17
    zzz22333  
    OP
       3 天前
    @None2 #16 确实好用,还免费。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4298 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 08:35 · PVG 16:35 · LAX 00:35 · JFK 03:35
    ♥ Do have faith in what you're doing.