V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kisshere
V2EX  ›  程序员

有没有从一段英文句子中提取出单词的 api?

  •  
  •   kisshere · 2019-01-24 09:25:48 +08:00 · 3007 次点击
    这是一个创建于 2155 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如一堆英文字符:adsokfjja asdffsa ffff iphone djkff walk dfasfasf

    那么我就提取出 iphone 和 walk 这两个单词,有这方面的 api 吗?

    14 条回复    2019-01-24 12:45:27 +08:00
    tionsin
        1
    tionsin  
       2019-01-24 09:29:28 +08:00
    需求不明确
    jrient
        2
    jrient  
       2019-01-24 09:33:12 +08:00
    按空格切割字符串,然后找个翻译软件的 api,逐词翻译。无释义的多半不是单词。
    应该不难,自己搞个。
    TimePPT
        3
    TimePPT  
       2019-01-24 09:34:12 +08:00 via Android   ❤️ 1
    从牛津高阶啊朗文之类的词典里整理个词表也就几十万单词,源数据整理完 uniq,硬匹配就行。对未匹配到的词只能人工查找
    xmai
        4
    xmai  
       2019-01-24 09:35:23 +08:00
    结巴分词
    zzzzzzZ
        5
    zzzzzzZ  
       2019-01-24 09:36:21 +08:00
    阿里云-数据智能-自然语言处理

    不过我没用过,NLP 相关的定制化程度都太高了,很难有适合大部分人的接口
    congeec
        7
    congeec  
       2019-01-24 09:44:10 +08:00
    如果你用 osx,我做了个系统自带补全的 python 接口
    https://github.com/Congee/SpellChecker

    如果你不关心单词各种变形,也不关心性能,也就一行命令的事儿
    $ echo walk eat | tr ' ' '\n' | xargs -I{} -P4 grep \^{}\$ /usr/share/dict/words
    eat
    walk
    还是并行的
    congeec
        8
    congeec  
       2019-01-24 09:44:51 +08:00
    说白了就是查表
    Sylv
        9
    Sylv  
       2019-01-24 09:49:27 +08:00 via iPhone
    英文词识别可以用 enchant / pyenchant:
    https://github.com/AbiWord/enchant
    https://github.com/rfk/pyenchant
    Trim21
        10
    Trim21  
       2019-01-24 10:50:20 +08:00
    找个词典查表吧
    wxl1380610
        11
    wxl1380610  
       2019-01-24 10:57:01 +08:00
    solr ?
    vipppppp
        12
    vipppppp  
       2019-01-24 12:03:11 +08:00
    我竟然看不懂 lz 表达什么意思。。
    mscb
        13
    mscb  
       2019-01-24 12:36:18 +08:00 via Android
    结巴分词加词典查表
    lastpass
        14
    lastpass  
       2019-01-24 12:45:27 +08:00
    简单点就直接使用各种分词插件或者正则硬匹配。
    进阶点就手撸词法分析器或者使用如 antl,拆分出 token 来就 OK。
    →_→这是计算机基础啊。编译原理的最简单的词法分析。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5428 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 06:51 · PVG 14:51 · LAX 22:51 · JFK 01:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.