1
zzz22333 OP |
2
jstony 4 天前 分解步骤,不要指望一句提示词搞定。
先 ocr ,获得文本和坐标,然后把文本扔给大模型,问他怎么拆题,根据大模型给的结果再去拿到每个题目对应的坐标,然后获得最终的拆题。ocr 的要求不用太高,识别错误没关系,大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型,让他直接给你每个题目的坐标,你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。 |
3
zzz22333 OP @jstony #2 我试过用大模型,效果也一般,而且大模型有个问题,就是一致性较差。最开始用 gemini 2.0-flash ,效果很差, 后面换成 gemini 3.0-preview 就好一些。
|
4
wangwaner 4 天前 via iPhone 二楼正解,你需要做一个 agent ,
1.首先用 deepseek-ocr (一个用 DeepSeek 的 ocr 模型)对文字进行识别, 2.然后把步骤 1 识别出来的结果(带文字和坐标的)输给文字大模型,让他给你返回题目的分割 3.(可选)将最终的切割结果再次 ocr ,文本发给大模型,让他验证题目 shifowanzheng (当然你上高级的多模态大模型也可就是数量多了有亿点费钱) |
5
cryptovae 4 天前 |
6
haohaozaici 4 天前
试了下夸克和 wps ,都可以很精准按题目分割图片
|
10
fadaixiaohai 4 天前
@cryptovae #9 这个感觉很专业啊
|
16
None2 3 天前
看标题就想到 MinerU 了
|