V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Gestalt
V2EX  ›  分享创造

BosonNLP 分词与词性标注 API 新版上线,全面免费开放

  •  
  •   Gestalt · 2015-08-31 14:43:49 +08:00 · 6424 次点击
    这是一个创建于 3401 天前的主题,其中的信息可能已经有所发展或是发生改变。

    敝司最近升级了分词与词性标注 API ,准确率有一定提升,调用的 rate 应该也可以满足日常需要了。诸位可以在 bosonnlp.com 注册帐号获取调用 token 感受,这里也有一个可以直接尝试的呆萌。各种参数和调用方式请见API 文档。 gl&hf

    升级说明

    分词在很多网站平台, APP 的开发中都是不可或缺的组件,但网上常见的分词项目,对新词与切分歧义的处理差强人意,甚至缺乏一个统一的词语切分标准。在过去的一年时间里,我们玻森在与很多开发团队的沟通中,不断看到这样的情况上演:

    开发者由于项目进度周期等限制,对于分词需求,常常直接在网上搜索到一个可能已经停止维护的分词系统,进行简单测试后,快速集成上线。项目初期一切都看上去良好,但随着数据增多、使用的深入,越来越多的问题不断暴露出来。如集成在网站搜索中,随着项目开展需要手动添加越来越多的特殊判定规则以修复由分词所产生的各种 bad case ,最终使得项目变得愈发臃肿与维护困难。

    为开发者提供高质量的分析引擎,这是我们 BosonNLP 语义开发平台成立的初衷。自然语言处理( NLP )是一个专业领域,玻森已经有多年的积累。我们希望自己在 NLP 上花费足够多的时间,从而作为开发者的您不需要在上面花费太多时间。希望您能更多集中在产品和创意,或得闲出门走走,看看这个挺大的世界。

    本次分词与词性标注引擎是 BosonNLP 过去一年最大的升级:

    • 我们将服务器从美国迁回了中国,调用速度有成倍的提升
    • 通过不断对算法进行调优,我们成功将分词与词性标注的错误率降低了 25%~35%
    • 我们决定将其不加限制,完全免费开放出来

    features:

    • RESP API 模式, SDK 与之前调用接口完全兼容
    • 提供不同的分词粒度选项
    • 提供繁简转换与特殊字符处理

    希望能对您有所帮助~

    BosonNLP 团队

    26 条回复    2015-09-07 15:31:42 +08:00
    zix
        1
    zix  
       2015-08-31 15:30:55 +08:00
    赞!
    menc
        2
    menc  
       2015-08-31 15:31:58 +08:00
    你们的其他组件效果和 ltp 相比如何呢?
    macg0406
        3
    macg0406  
       2015-08-31 15:52:16 +08:00
    赞一个!
    Gestalt
        4
    Gestalt  
    OP
       2015-08-31 15:54:18 +08:00
    @menc 这种 nlp 的东西不同的标注标准和测试集下数值的结果偏差还是很大的,我厂标注上更偏重于实际的 sns 数据,而且分析的 api 也相对多一些。你可以贴一些文章试试这个呆萌的 NER 之类的效果: http://bosonnlp.com/demo
    ToysMall
        5
    ToysMall  
       2015-08-31 15:58:36 +08:00
    赞一个,基于网络的 api 应用效率很低,能否以包的形式提供?
    Gestalt
        6
    Gestalt  
    OP
       2015-08-31 16:06:48 +08:00
    @ToysMall 可以批量调,一次可以传 100 条,而且可以开多线程(具体看文档),感觉一般的 web 应用足够了,况且现在服务器也搬国内了。封装成包反而可能有一堆更新安装机器配置的问题。
    sunchuo
        7
    sunchuo  
       2015-08-31 16:24:10 +08:00
    hi.现在只有免费有限制的接口么。
    收费服务有没有。
    Gestalt
        8
    Gestalt  
    OP
       2015-08-31 16:28:23 +08:00
    @sunchuo 大规模用可以见 http://bosonnlp.com/about#contact 的联系方式。
    predator
        9
    predator  
       2015-08-31 16:36:22 +08:00
    赞一个,先用起来
    Dlad
        10
    Dlad  
       2015-08-31 16:37:18 +08:00
    高山仰止!
    est
        11
    est  
       2015-08-31 16:47:28 +08:00
    无聊于是贴了一段:

    自桓帝、灵帝以来,黄巾猖獗,天下纷争,社稷有累卵之危,生灵有倒悬之急,我太祖武皇帝,扫清六合,席卷八荒,万姓倾心,四方仰德,此非以权势取之,实乃天命所归也!我世祖文皇帝,神文圣武,继承大统,应天合人,法尧禅舜,处中国以治万邦,这岂非天心人意乎?今公蕴大才,抱大器自比管仲,乐毅,何乃要逆天理,背人情而行事?岂不闻古人云:顺天者昌,逆天者亡。今我大魏带甲百万,良将千员。谅尔等腐草之萤光,如何比得上天空之皓月?你若倒戈卸甲,以礼来降,仍不失封侯之位,国安民乐,岂不美哉?

    分词器:卒
    EPr2hh6LADQWqRVH
        12
    EPr2hh6LADQWqRVH  
       2015-08-31 16:51:20 +08:00
    @est 须知古文并无标点, 去标点后结果感人

    自桓帝灵帝以来黄巾猖獗天下纷争社稷有累卵之危生灵有倒悬之急我太祖武皇帝扫清六合席卷八荒万姓倾心四方仰德此非以权势取之实乃天命所归也我世祖文皇帝神文圣武继承大统应天合人法尧禅舜处中国以治万邦这岂非天心人意乎今公蕴大才抱大器自比管仲乐毅何乃要逆天理背人情而行事岂不闻古人云顺天者昌逆天者亡今我大魏带甲百万良将千员谅尔等腐草之萤光如何比得上天空之皓月你若倒戈卸甲以礼来降仍不失封侯之位国安民乐岂不美哉
    Gestalt
        13
    Gestalt  
    OP
       2015-08-31 17:11:24 +08:00
    sunchuo
        14
    sunchuo  
       2015-08-31 17:13:54 +08:00   ❤️ 1
    工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作


    测试了一下感觉还是很准的。你们专门优化了这句话么!!!!
    est
        15
    est  
       2015-08-31 17:15:21 +08:00
    @Gestalt 我擦。。。这个要查水表啊。。。
    Gestalt
        16
    Gestalt  
    OP
       2015-08-31 17:25:14 +08:00
    @sunchuo 然而并没有⋯⋯小机器人自己学的._.
    zix
        17
    zix  
       2015-08-31 22:44:04 +08:00
    @sunchuo 卧槽!
    zix
        18
    zix  
       2015-08-31 22:47:41 +08:00
    @Gestalt 至少筛选过语料吧
    sobigfish
        19
    sobigfish  
       2015-08-31 22:48:29 +08:00
    呃, lz 的文字贴进去 BosonNLP 和 SDK 被识别成了公司名-。- 第 2 个错了也就算了 你们自己的产品都错啊

    其他准确率到是很高。
    注册了-。- SDK 只有 python 的么
    Gestalt
        20
    Gestalt  
    OP
       2015-09-01 00:11:04 +08:00
    @sobigfish 目前除了 python 之外有第三方写的 node.js ruby clojure java 的。 http://bosonnlp.com/dev/center https://github.com/search?utf8=%E2%9C%93&q=bosonnlp
    Gestalt
        21
    Gestalt  
    OP
       2015-09-01 00:11:53 +08:00
    @zix 监督 /半监督学习都是需要标注语料的。
    enotx
        22
    enotx  
       2015-09-01 00:15:15 +08:00 via Android
    赞啊
    zerh925
        23
    zerh925  
       2015-09-01 09:00:57 +08:00
    真心不错!
    jeremaihloo
        24
    jeremaihloo  
       2015-09-03 22:26:04 +08:00 via Android
    mark ,最近正需要
    jiehuangwei
        25
    jiehuangwei  
       2015-09-06 17:17:36 +08:00
    注册了一个试了试,暂无好的想法,无法验证。。。。
    tonic
        26
    tonic  
       2015-09-07 15:31:42 +08:00
    一眼看到你们公司的一个帅气胖子
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3622 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 04:41 · PVG 12:41 · LAX 20:41 · JFK 23:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.