V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
V2EX  ›  V2EX

关于目前 V2EX 的主题的自动打标签功能

  •  
  •   Livid · 2014-02-20 16:17:47 +08:00 · 5840 次点击
    这是一个创建于 3690 天前的主题,其中的信息可能已经有所发展或是发生改变。
    是的,有时候确实会产生一些奇怪的结果。

    我们用的是结巴中文分词这个库算出来的结果,如果你对分词方面有研究,有信心做出更好的结果,或许你可以考虑给他们提一个 pull request:

    https://github.com/fxsjy/jieba

    这是我之前提的 issue:

    https://github.com/fxsjy/jieba/issues/130
    26 条回复    1970-01-01 08:00:00 +08:00
    tension
        1
    tension  
       2014-02-20 16:25:19 +08:00   ❤️ 19
    继续努力就好啦... 着什么急... 中国的语言是博大精深的!

    1. 冬天:能穿多少穿多少; 夏天:能穿多少穿多少。
    2. 剩女产生的原因有两个,一是谁都看不上,二是谁都看不上。
    3. 地铁里听到一个女孩大概是给男朋友打电话,“我已经到西直门了,你快出来往地铁站走。如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就等着吧。”
    4.单身人的来由:原来是喜欢一个人,现在是喜欢一个人。
    5.两种人容易被甩:一种不知道什么叫做爱,一种不知道什么叫做爱。
    6.想和某个人在一起的两种原因:一种是喜欢上人家,
    另一种是喜欢上人家。
    7.女孩约的男孩迟到了有两个原因:
    ①睡过了,②睡过了。
    Mihuwa
        2
    Mihuwa  
       2014-02-20 16:26:22 +08:00
    哈哈,楼上的。
    Tink
        3
    Tink  
       2014-02-20 16:26:48 +08:00
    @tension 太赞了!
    jjplay
        4
    jjplay  
       2014-02-20 16:31:24 +08:00
    机智的 1L
    xgjames
        5
    xgjames  
       2014-02-20 16:35:02 +08:00
    连「库算」都能分成个词,笑死了
    donwa
        6
    donwa  
       2014-02-20 16:38:25 +08:00   ❤️ 1
    我觉得v2ex的分词已经很好了。
    再自己维护下词库,应该可以达到更好的效果。

    @xgjames jieba好像有新词发现功能。
    这个 库算 出来

    “这个” 和 “出来” 在词库内存在,而在“这个”和“出来”之间的“库算” 定义为新词了
    family
        7
    family  
       2014-02-20 16:41:28 +08:00 via iPhone
    根本不是分词库的问题
    而是主题词/热点词算法的问题
    donwa
        8
    donwa  
       2014-02-20 16:47:10 +08:00
    @Livid 我觉得应该对v2ex的标签再进行一个处理。每次取词 5~6个,然后再查wiki或者百度百科是否存在词条。

    优先选择: 存在词条 > 出现频率 > 词库中存在 > 新词 来确定3个标签。
    caoyue
        9
    caoyue  
       2014-02-20 17:38:52 +08:00
    应该也不是是词典的问题,jieba 分词的效果还是不错的
    但是关键词提取的时候,对于词典中不存在的词的处理似乎有些问题
    用 cut 来分词,然后自己处理提取 tag 可能会好一点。
    blacktulip
        10
    blacktulip  
       2014-02-20 17:41:54 +08:00   ❤️ 1
    只需要开启手动编辑功能,让大家都能改帖子的 tag 就行了。
    Sivan
        11
    Sivan  
       2014-02-20 17:46:49 +08:00   ❤️ 1
    tag 最奇怪的难道不是这个帖子吗?
    http://www.v2ex.com/t/97492
    sethverlo
        12
    sethverlo  
       2014-02-20 18:10:54 +08:00
    @Sivan 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈点进去之前想到了各种可能性,进去之后还是笑喷了哈哈哈哈哈哈哈哈哈哈哈哈哈哈
    underone
        13
    underone  
       2014-02-20 18:12:19 +08:00
    @Sivan 我笑了。。。
    wwqgtxx
        14
    wwqgtxx  
       2014-02-20 18:15:53 +08:00 via Android
    @Livid
    能不能让移动界面也能看到分词呀!
    hzlzh
        15
    hzlzh  
       2014-02-20 19:22:35 +08:00
    围观 “库算” 这个标签
    lazycat
        16
    lazycat  
       2014-02-20 19:39:04 +08:00 via Android
    @wwqgtxx 赞一个
    air00dd
        17
    air00dd  
       2014-02-20 20:06:31 +08:00
    有没有主题收藏用标签分类的计划?
    zorceta
        18
    zorceta  
       2014-02-20 21:33:51 +08:00 via Android
    V2EX的分词系统不是AI么
    aoaoho
        19
    aoaoho  
       2014-02-20 22:48:50 +08:00 via iPad
    1楼 @tension 和 11楼 @Sivan 都亮了
    cchange
        20
    cchange  
       2014-02-20 23:12:30 +08:00 via iPhone
    1楼 @tension 太亮了
    怪不得财富那么多

    还有 手机版无法看到标签啊~
    caomu
        21
    caomu  
       2014-02-21 00:29:36 +08:00 via Android
    tag收藏
    tag之间关联,类似于子话题
    tag维护者
    tag wiki(简短描述)

    好像有点像知乎。。。
    onemoo
        22
    onemoo  
       2014-02-21 00:37:52 +08:00
    能不能设置手动编辑?
    或者设置一个tag库,放上常用的tag,供大家选择。
    virushuo
        23
    virushuo  
       2014-02-21 05:54:05 +08:00
    我对分词算略有经验,以我们当年做搜索的经验看,如果不是通用搜索,只面对一个领域,最好的办法是自定义词库。所以开放tag编辑功能,用户修正错误,然后稍微用个算法过滤一下,生成自定义词库补充进去,效果能好很多。这种情况反而在分词引擎本身上能提高的余地不大。
    0bit
        24
    0bit  
       2014-02-21 08:01:22 +08:00
    @tension 糖蒜女子脱口秀?
    xiaket
        25
    xiaket  
       2014-02-21 09:04:07 +08:00
    @Livid, 附议@virushuo

    可以扫一遍已有的标签们, 编辑成一个列表, 后面的新标签也更倾向于从列表中取.
    cxshun
        26
    cxshun  
       2014-02-21 13:57:19 +08:00
    @tension 牛叉,果断博大精深。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5306 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 08:18 · PVG 16:18 · LAX 01:18 · JFK 04:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.