试卷切割有啥好的方案吗，试过百度云和阿里云，效果都不太行。

试卷

方案

17 replies • 2026-02-06 16:45:53 +08:00

1

zzz22333

OP

Feb 6

这个是原图，阿里切出来长这样

百度云切出来长这样

是要对图片提前处理吗？

2

minibear2021

Feb 6

1

分解步骤，不要指望一句提示词搞定。
先 ocr ，获得文本和坐标，然后把文本扔给大模型，问他怎么拆题，根据大模型给的结果再去拿到每个题目对应的坐标，然后获得最终的拆题。ocr 的要求不用太高，识别错误没关系，大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型，让他直接给你每个题目的坐标，你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。

3

zzz22333

OP

Feb 6

@jstony #2 我试过用大模型，效果也一般，而且大模型有个问题，就是一致性较差。最开始用 gemini 2.0-flash ，效果很差，后面换成 gemini 3.0-preview 就好一些。

4

wangwaner

Feb 6 via iPhone

1

二楼正解，你需要做一个 agent ，
1.首先用 deepseek-ocr （一个用 DeepSeek 的 ocr 模型）对文字进行识别，
2.然后把步骤 1 识别出来的结果（带文字和坐标的）输给文字大模型，让他给你返回题目的分割
3.（可选）将最终的切割结果再次 ocr ，文本发给大模型，让他验证题目 shifowanzheng
（当然你上高级的多模态大模型也可就是数量多了有亿点费钱）

5

cryptovae

Feb 6

2

这样？

6

haohaozaici

Feb 6

试了下夸克和 wps ，都可以很精准按题目分割图片

7

zzz22333

OP

Feb 6

@cryptovae #5 是这个意思，怎么做到的呢

8

zzz22333

OP

Feb 6

@wangwaner #4 大概懂了，我是直接把图片发给 OCR ，让它输出坐标。没有第一步，所以精度不是很高。

9

cryptovae

Feb 6

@zzz22333 #7 https://github.com/opendatalab/MinerU

10

zeex

Feb 6

@cryptovae #9 这个感觉很专业啊

11

zzz22333

OP

Feb 6

@cryptovae #9 这个效果挺好的呀，我在思考怎么实现切割。

12

cryptovae

Feb 6

@zzz22333 #11 和上面说的一样，ocr 出完整内容，让大模型切割就行了

13

zzz22333

OP

Feb 6

@wangwaner #4

AI 评价这个方案很靠谱，我试试。

14

wangwaner

Feb 6 via iPhone

好的哇👍🏻
@zzz22333

15

zzz22333

OP

Feb 6

@cryptovae #12 用了 MinerU 这个基本满足我的需求了，比之前的阿里云，百度云强太多，甚至还是免费....

16

None2

Feb 6

看标题就想到 MinerU 了

17

zzz22333

OP

Feb 6

@None2 #16 确实好用，还免费。