首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
华为云
V2EX  ›  云计算

再次优化了一下我们的 NLP 规则

  •  
  •   quu · 125 天前 · 4917 次点击
    这是一个创建于 125 天前的主题,其中的信息可能已经有所发展或是发生改变。

    搞个 demo 很容易实现,打磨这个事儿就是个长期的事情了,折腾了好长一段时间,正式将 NLP 迁移到我们的文智平台,后端还在开发的 to do list 里,人手吃紧要干的事儿有点多。

    还是先来个尝鲜吧。

    http://txtai.com/product/nlp.shtml

    自然语言处理围绕情感分析的场景,目前还是适用于标准的新闻内容,以及文档内容的情感识别,口语化识别可能还是一个超级漫长的过程。

    欢迎大家帮忙提提建议,这套业务已经集成到我们的舆情监控业务里,对这方面应用,或者对舆情产品感兴趣的可以联系我,我发 0.1 折体验卷。

    61 回复  |  直到 2018-04-22 20:15:25 +08:00
        1
    tailf   125 天前   ♥ 2
    NLP:你老婆?
        2
    164607638   125 天前
    我觉得啊,这个项目小看了中华文化尤其是汉语的魅力
        3
    ryV60s   125 天前
    比如:"草泥马,哈哈"
    正面 57%
    负面 42%
    -.-
        4
    zhangzhang   125 天前
    「你说的真对,嘻嘻」
    正面 77.24%
    负面 22.76%
        5
    timwei   125 天前   ♥ 1
    "我今天是作为一个长者来跟你们讲的"
    正面 83%
    负面 17%

    8-)
        6
    LadyChunsKite   125 天前
    “无 fuck 说”

    正面:89.6%
    负面:10.4%
        7
    murmur   125 天前   ♥ 1
    以前做舆情项目
    现在认为中文情感分析就是做梦
    以中文的博大精深
    以及资深网民多年对抗关键字过滤的经历
    绝大多数人都可以笑嘻嘻的骂你 mmp
        8
    takato   125 天前
    压缩的维度太小了。。。。实在不是 NLP 的正确用法。。
        9
    cosmic   125 天前   ♥ 2
    华为手机电池用得太快了
    结果:0%负面,100%正面
    私以为这样的结果,用来做口碑监控,怕不是要把一些公司坑死。
    只用情感词典的话,要做的规则太多了,建议增加语料库,电商网站的评论多标注,用 CNN 或者 LSTM 训练
        10
    fanhaipeng0403   125 天前
    呵呵



    正面 100%
        11
    ucaime   125 天前
    http://nlp.qq.com/
    腾讯的也叫文智,有什么关系吗?
        12
    yianing   125 天前
    水不在深,亦可赛艇
    正面:97.74%
    exciting ?
        13
    wy315700   125 天前
    怎么联系楼主
        14
    Devilker   125 天前
    还是太年轻
    正面:92.8
    负面:7.2
        15
    lanyi96   125 天前
    我是你爸爸
    正面:100
        16
    Greatshu   125 天前   ♥ 7
        17
    qiyuey   125 天前
    你们还是要学习一个闷声发大财
    正面:79.36
    负面:20.64
        18
    reeonce   125 天前
    特朗普
    正面: 50%
    负面: 50%
        19
    weizhen199   125 天前
    呵呵
    正面: 100%
    负面: 0%
        20
    ThirdFlame   125 天前
    我去你妹,妹家
    正面:80.87%
    反面:19.13%
        21
    gitopen   125 天前
    今天天气真好啊。我心情真不爽。
    。。判断 100%正面。。。这准确率。。。。
        22
    chemzqm   125 天前   ♥ 1
    百度
    正面:0%
    反面:100%

    我很满意
        23
    leemove   125 天前
    @chemzqm 老奶奶我都不服,我就服你...
        24
    Kilerd   125 天前
    我给你买几个橘子回来

    正面 83%
        25
    hanbing135   125 天前 via Android
    感觉 nlp 根本解决中文这个问题
        26
    casparchen   125 天前   ♥ 1
    老婆和隔壁老王经常来往
    正面: 58.16%
        27
    overflowHidden   125 天前
    你妈做的红烧肉棒极了
    正面 35%
    负面 65%
        28
    BingoXuan   125 天前 via Android
    “我们一起去吃鸡吧”,正面 80%左右,果然中文博大精深
        29
    keenwon   125 天前
    9 折就是 * 0.9
    0.1 折就是 * 0.01
    这样理解对吧?
        30
    locktionc   125 天前
    食屎啦你
    正面 100%
    负面 0%
        31
    guokeke   125 天前
    "你老婆就是我老婆"
    正: 97.45%
    负: 2.55%
        32
    guokeke   125 天前
    http://www.chayuqing.com/about/us.shtml
    这个页面好像报错了
        33
    diggerdu   125 天前
    "板马养的"
    正: 100%
        34
    yankebupt   125 天前
    大概试了一下,这个很可能是直播网站里用专门被人工标记为活跃喷子用户和导致被禁言的弹幕为数据训练的。
    带有"开挂"字样的弹幕大多识别为正面居多,但是"五五开挂"四字成型语可准确识别为负面 100%,
    显然经过针对采样。
    感觉这类技术不怕不准确,就怕有针对性的学习管理者的癖好然后不断演化,成为管理方选择性呈现舆情的帮凶和对于徇私而屏蔽特定舆情时推卸责任的替罪羊。
    即使发展不到那个地步,想到直播平台点开每个人的时候都有个此人弹幕平均健康度之类的指标列在上面就挺过分的。
    如果这个正负面数据泄露了,成为你的广告提供商个性化推送什么广告时的参考依据,辅以你的弹幕关键字,甚至成为一种隐藏的个人评级,是不是更过分。
        35
    Xs0ul   125 天前
    感觉上,按百分比显示不太合理?平平淡淡没什么情感的也是 50-50,有喷有赞的也是 50-50
        36
    roychan   125 天前
    阿猫阿狗都 NLP 了。可以请你们给你们的网站加上 SSL 吗?
        37
    wdlth   125 天前
    有钱是可以为所欲为的

    正面:31%
    负面:69%
        38
    yankebupt   125 天前
    感觉也可以面向个人,上传个人历史弹幕数据或历史帖子,给出评分,让个人对自己在平台上 NLP 机器人给的隐藏分大概什么样有个了解....
        39
    aheadlead   125 天前
    搞个大新闻!

    正面:81%
    负面:19%
        40
    Antidictator   124 天前
    打扰了

    正面:54.75%
        41
    duowb   124 天前
    澳门荷官在线发牌

    正面:100% (#^.^#)
        42
    cluulzz   124 天前
    "蛤蛤蛤蛤蛤蛤蛤"

    正面:50%
    负面:50%
        43
    LeoNG   124 天前
    你好棒棒哦

    正面:100%
        44
    quu   124 天前
    @zhangzhang 希望能看一下前提条件哈 [目前还是适用于标准的新闻内容] ,中文太伟大,很多语义换个环境就不是原有的意思了,让机器去理解这些实在太难完成。
        45
    quu   124 天前
    @cosmic 感谢建议,已打赏,这块其实已经加了一些行业语料库了,但是体积确实不够大。
    我看了一下历史内容,你的这条确实要深度优化。
        46
    quu   124 天前
    @ucaime 没有关系,文本智能化 = 文智
        47
    quu   124 天前
    @roychan 作为一个安全背景出身的团队,我想问一下,SSL 到底解决了什么问题?在我们这个场景应用又可以帮助我们解决了什么?是否有直接性影响?
        48
    pmispig   124 天前
    作为一个安全背景出身的团队,居然还能问,SSL 到底解决了什么问题....?
    看来你是个小白吧,我只说一点,网站内容劫持。
        49
    zhangsen1992   124 天前
    samples:呵呵
    你妈逼你结婚了吗
    去你大爷家给你大爷祝寿
        50
    fiht   124 天前
    base64: 5Lmg5YyF5a2Q5oiQ55qH5bid5ZKv
    正面:98%
    base64: 5Lmg5YyF5a2Q6KaB5YGa55qH5bid5LqG
    正面:57%
        51
    Greenm   124 天前   ♥ 1
    有注册功能涉及用户资料不上 https,还能大言不惭的问 SSL 到底解决了什么问题。

    现在是不是安全背景门槛这么低了?使用过漏扫是不是也算有安全背景的团队?
        52
    xiongshengyao   124 天前
    天冷了,我妈逼我穿秋裤
    负面: 80.84%
    正面: 19.16%

    这个很负面吗?明明就是中性吧
        53
    CloudnuY   124 天前
        54
    xiangyuecn   124 天前
        56
    shiny   124 天前
    都 2018 年了还在问 SSL 到底解决了什么问题
        57
    BoiledEgg   124 天前
    全楼看下来,这广告效果很好,哈哈哈哈哈
        58
    cnallenzhao   124 天前
    小米手机太卡了,别买
    正面 63%
    ?
        59
    roychan   123 天前
    @quu

    SSL 解决的问题只需要用搜索引擎搜索一下就可以,有人可以比我说得更加清楚。SSL 对于 NLP 本身当然没什么用,但是既然用户需要使用浏览器和 HTTP 协议去使用你发出来的这个 demo,那么我认为加上 SSL 是有必要的。抛开“保护用户”不谈,首先也是保护你们自己。:)

    It's 2018.
        60
    quu   122 天前
    先感谢,各位基于标准“新闻”下帮忙找误报问题的朋友,NLP 这东西要持续打磨,这些问题永远解决不完,所以我们后续会考虑把接口放开,找志同道合的朋友来一起完善。

    对于一些没看清前置条件,就开始用“口语话”、“网络语”、“谐音错别字”来刻意找问题的朋友,我只能用“调皮”来形容,NLP 想要理解这些东西,三五年都搞不定,中文太复杂了,目前没有看到任何一个对这种复杂语境,处理的很得心应手的,我们只能尽量完善自己,持续打磨。

    对于某些学了点狗屁基础的,就拿着眼界里的理解来看待业务张嘴乱喷的,我想用“心理畸形”来形容,不是所有的东西都是绝对的,尤其是安全这件事儿上,以为引用了什么就会怎样,怎样,只是知道如果不做这些也许会导致出现某个结果,先别急着喷,闷头问问自己你真的会利用吗?

    那再问问自己,是不是真的用了就万事大吉了吗?

    如果还想张嘴闭嘴“不了解点背景就用个过来人身份调侃和口出狂言”,我不和你争,你是对的!

    安全无绝对,过度的依赖所谓的经验和标准,就是最大的问题。

    有没有用?

    有点用!
        61
    chendeshen   114 天前
    能有 rest api 接入吗
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   实用小工具   ·   655 人在线   最高记录 3762   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 20ms · UTC 21:22 · PVG 05:22 · LAX 14:22 · JFK 17:22
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1