AI 中的 Question-Answering 任务，如何将大段文本制作成训练数据呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 995 天前的主题，其中的信息可能已经有所发展或是发生改变。

在 Question-Answering 的训练任务中，训练任务通常是结构化的数据，大概是下文这种。

Context	Question	Answer	Answer-start
上下文	问题	回答	回答的开始字符位置

现在我有一大段或者很多纯文字数据，如何将这些制作成训练数据集呢？

训练

上下文

任务

数据

12 条回复 • 2023-05-26 17:57:40 +08:00

TimePPT

PRO

2023 年 5 月 26 日 via Android

纯文本是指原始对话内容还是指纯的知识文档？
前者有角色就能分，后者要做文档 QA 抽取

KevinQi

2023 年 5 月 26 日

@TimePPT 谢谢，纯的知识文档，大多是 excel ，还有 pdf 。

DigitalG

2023 年 5 月 26 日

可以自己生成吗：Training Question Answering Models From Synthetic Data ，https://arxiv.org/abs/2002.09599
但我觉得这种用途有限。

另外想了解下，如果数据集是这样的话，为什么还要用 QA 任务模型呢？

kingddc314

2023 年 5 月 26 日

可以调用 ChatGPT 生成

TimePPT

PRO

2023 年 5 月 26 日

@KevinQi 不想处理的话，试试用检索增强（ ES 搜索、向量检索）大模型端到端的直接问答，可以参考下 Langchain
如果想有监督，可以调取 GPT-4 让列出可能的 QA 对，然后人工筛选入库

KevinQi

2023 年 5 月 26 日

@DigitalG 未必是 QA 模型，目前想采用的 3 个，一个是 QA 模型，一个是 Document Question Answer 模型，还有一个是 Table Question Answering ，但是后面两个在 Huggingface 上都没有找到中文的相关模型，所以想着先试试 QA 模型，利用现有数据对某个中文模型进行微调训练。

KevinQi

2023 年 5 月 26 日

@TimePPT 我觉得从纯文本 /文件 /图片抽取信息做 QA 或者 Document QA 的训练数据集，或者更普遍的，“如何从无结资料构建 QA 数据？”，应该是训练 AI 的一个很普遍的步骤，为什么检索不到什么通用工具呢？是不是我检索的关键字不对啊，学术领域这个称呼是什么呢？

TimePPT

PRO

2023 年 5 月 26 日

@KevinQi https://zhuanlan.zhihu.com/p/373244147

TimePPT

PRO

2023 年 5 月 26 日

搜「文档 QA 抽取」

KevinQi

2023 年 5 月 26 日

@TimePPT 这篇检索到了，但是只有论文。

DigitalG

2023 年 5 月 26 日 via iPhone

@KevinQi nlp 的思路的话，可以先大规模数据上做无监督的 lm 模型，然后小规模数据上微调面向任务的 head 。如果这么操做呢？

KevinQi

2023 年 5 月 26 日

@DigitalG 不太明白，AI 小白，现在只过了一遍 Huggingface 上的 Question Answering 任务的 colab 笔记。
我现在的想法是使用 HuggingFace 上的中文 QA 预训练模型，然后使用手里的文档资料数据进行微调，微调的步骤 Huggingface 上教程很清楚，但是如何使用纯文本 /pdf/exce 文档生成格式化的训练数据（{question, context, answer: {answer_start, answer_text}}），一直没有找到工具和普遍的方法。目前就卡在了“无结构化文档 to Dateset”这一步了