V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LuffyPro
V2EX  ›  机器学习

向量化多源文本时,如何做好文本分割?

  •  
  •   LuffyPro · 300 天前 · 897 次点击
    这是一个创建于 300 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 项目想读取多种类型的文本,比如 doc,md,xlsx 等文件的内容
    • 将其向量化后,存储到向量数据库

    请问大家是如何做文本分割的,当然这里不是指简单的字符分割,而是如何将他们合理的分割后存到向量数据库,以便于提高知识库的匹配精准度。谢谢回复。

    5 条回复    2024-02-29 20:10:28 +08:00
    Haku
        1
    Haku  
       298 天前
    人肉分割。别笑,我们公司就是这么干的,效果不说有多好,但是起码比机械地按句子标点符号啥的分割要好很多。

    一定要程序来分割的话,可以直接交给 AI 然后按照语义分割试试。
    LuffyPro
        2
    LuffyPro  
    OP
       280 天前
    谢谢回复,确实,感觉绝大部分 ai 应用还是专用型,专用型一般是特定场景,语义分割时的约束比较好定义,人工分割也简单些,比较适合初期落地。
    这是我找到的别人的回复: https://zhuanlan.zhihu.com/p/673906072 ,共勉。
    PS:新号 注册 15 天后才能回复😂
    shm7
        3
    shm7  
       251 天前
    按照句子分割,再长的按照分句分割。中英那么多标点符号呢。NLPer 的祖传技能了。
    183387594
        4
    183387594  
       250 天前
    SpacyTextSplitter
    LuffyPro
        5
    LuffyPro  
    OP
       249 天前
    谢谢大佬们的回复。
    @shm7 主要是想在分割的同时,尽量保留上下文语义关系或者逻辑关系。
    @SpacyTextSplitter 效果怎么样?可惜目前仅看到 py 版本。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   953 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:00 · PVG 05:00 · LAX 13:00 · JFK 16:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.