V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
RangerWolf
V2EX  ›  分享创造

做了一个股市的舆情分析接口,有感兴趣的么?

  •  
  •   RangerWolf · 2018-01-08 16:57:12 +08:00 · 9022 次点击
    这是一个创建于 2538 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做了的事情:

    • 每天不停的抓某论坛上面股市相关的人的发言
    • 人工标注了接近 3W 条数据 自身需要, 不是讨论大盘的都被认定成股市无关
    • 训练了一个分类模型, 判断这一条语句的结果:
      • 无关或无用
      • 看涨
      • 看跌

    目前自己用的感觉:

    • 不能直接预测股市涨跌(废话,也不是目标)
    • 看涨看跌感觉还是比较准的, 只不过对那种转折语句判断确实容易出问题
    • 蛮多实际上有用的

    一个简陋的 demo

    http://stock.flyml.net/
    在最底下有测试窗口

    PS:目前还是很容易挂的, 不要黑我。。。

    第 1 条附言  ·  2018-01-08 18:18:59 +08:00
    有兴趣可以邮件联系:yang.rangerwolf AT G 妹儿
    75 条回复    2018-01-16 18:39:53 +08:00
    ljsh0102
        1
    ljsh0102  
       2018-01-08 17:01:19 +08:00
    全是看平或无用
    chinajik
        2
    chinajik  
       2018-01-08 17:39:42 +08:00
    有兴趣,觉得不错
    tmkook
        3
    tmkook  
       2018-01-08 17:43:29 +08:00
    就这量涨不起来!明天还得跌回去

    这句话都说看平或无用,是不是训练量不够?
    takato
        4
    takato  
       2018-01-08 17:52:32 +08:00 via iPhone   ❤️ 2
    这东西放在五六年前其实效果非常好。
    qdwang
        5
    qdwang  
       2018-01-08 18:01:23 +08:00 via iPhone   ❤️ 1
    时间长了你会发现舆情和行情没有相关性
    x7395759
        6
    x7395759  
       2018-01-08 18:04:33 +08:00
    这个没法对操作进行指导呀,只能当成分析大众的工具。
    RangerWolf
        7
    RangerWolf  
    OP
       2018-01-08 18:07:02 +08:00
    @takato 能说一下现在不好的原因吗?
    RangerWolf
        8
    RangerWolf  
    OP
       2018-01-08 18:17:16 +08:00
    @tmkook 现在最大的问题就是 很多确实是有用的, 被判定成无用了。
    我单独把你这句话“现在最大的问题就是 很多确实是有用的, 被判定成无用了。” 喂给了判定涨跌的模型, 结果是看跌, 概率 0.91
    RangerWolf
        9
    RangerWolf  
    OP
       2018-01-08 18:18:08 +08:00
    @x7395759 是的~ 我也没指望能通过 AI 把股市变成我的提款机
    RangerWolf
        10
    RangerWolf  
    OP
       2018-01-08 18:20:13 +08:00
    @qdwang 我们另外还有一个在调优的模型, 增加判断这一条记录是长线还是短线

    之前人工觉得, 对短线, 特别是股灾, 还是有一些作用的
    fe619742721
        11
    fe619742721  
       2018-01-08 18:21:18 +08:00
    跌是不可能跌的,
    这句话被判定成 跌 ,概率 0.97 。。。哈哈 好好玩
    RangerWolf
        12
    RangerWolf  
    OP
       2018-01-08 18:25:50 +08:00
    @fe619742721 haha~ 误判是一定存在的

    总有人工智障的时候, 在正文也提到过目前确实有这种问题。 否定的、转折的。。。

    希望有大神能一起来搞。
    takato
        13
    takato  
       2018-01-08 18:31:05 +08:00 via iPhone
    @RangerWolf 大家都开始使用的时候,信号会减弱,最后会淹没在噪声之中。
    code4life
        14
    code4life  
       2018-01-08 18:33:50 +08:00
    看起来不错,楼主继续加油
    takato
        15
    takato  
       2018-01-08 18:35:30 +08:00 via iPhone
    @RangerWolf 另外当开始使用这套系统的时候,自身就会成为一个市场信号,这个信号同样会被其他系统捕捉,最后会变成“谁掉头更快”、“谁对信号更敏感”就能吃掉别人的斗争。
    hqtc
        16
    hqtc  
       2018-01-08 18:38:05 +08:00
    @takato 哈哈,让我想起了雪球大 V 概念股。。一次调仓公布马上拉升。。。
    AlwaysBee
        17
    AlwaysBee  
       2018-01-08 18:47:52 +08:00   ❤️ 1
    有一个叫 查舆情 的网站,很强大,认识这个网站的创始人
    qdwang
        18
    qdwang  
       2018-01-08 19:56:46 +08:00
    @RangerWolf 以前也做过一些类似的系统,但是并没有太成功,可能是水平有限。

    希望你们能通过这个找到属于自己的圣杯:)
    RangerWolf
        19
    RangerWolf  
    OP
       2018-01-08 20:09:40 +08:00 via Android
    @code4life 感谢 哈哈
    RangerWolf
        20
    RangerWolf  
    OP
       2018-01-08 20:11:06 +08:00 via Android
    @hqtc 能稍微详细说说? 不是很懂
    chinvo
        21
    chinvo  
       2018-01-08 20:17:13 +08:00
    你的微博接口貌似挂了
    guanaco
        22
    guanaco  
       2018-01-08 20:26:51 +08:00 via iPhone
    这个内用,大多数人是不赚钱的,也就是说大多数舆情是错的
    guanaco
        23
    guanaco  
       2018-01-08 20:27:40 +08:00 via iPhone
    没用,手滑出的错字
    guanaco
        24
    guanaco  
       2018-01-08 20:32:06 +08:00 via iPhone
    还不如写个爬研究员的微信公众号有用,这个楼主能做一个?
    hqtc
        25
    hqtc  
       2018-01-08 20:33:59 +08:00
    @RangerWolf “另外当开始使用这套系统的时候,自身就会成为一个市场信号”。这句话不是很难理解吧。就是你这个系统预测出的结果,将会对市场产生影响。当然前提是有一定的关注量,就像雪球上的很多大 V 组合一样,他买的票为什么涨,因为大家看到他买了纷纷跟进。。

    我 15 年被收割一波之后 9 月开始抓个股数据,抓了一年的,现在废弃了

    https://www.v2ex.com/t/276786
    RangerWolf
        26
    RangerWolf  
    OP
       2018-01-08 21:28:54 +08:00
    @chinvo 亲,你说的微博接口是什么? 我没看懂你的意思
    RangerWolf
        27
    RangerWolf  
    OP
       2018-01-08 21:29:57 +08:00
    @guanaco 爬公众号的代码应该也不少了吧? 可能还没完全看懂你的意思
    RangerWolf
        28
    RangerWolf  
    OP
       2018-01-08 21:32:15 +08:00
    @hqtc 其实我指的是 “一次调仓公布马上拉升。。。”

    不过你前面回复的话,感觉也解释了这一句话
    guests
        29
    guests  
       2018-01-08 21:41:27 +08:00   ❤️ 1
    挺有意思的项目。

    明天大盘多半凶多吉少——预测结果:跌, 概率 0.702844
    明天大盘晴转阴——预测结果:涨, 概率 0.658135 X
    大盘涨跌都很正常,平常心看待——预测结果:看平或无用, 概率 0.583144
    大盘明天是割肉行情——预测结果:涨, 概率 0.566443 X
    hlwjia
        30
    hlwjia  
       2018-01-08 21:44:27 +08:00 via iPhone
    搭车问:谁有股票市场的数据实时接口的吗?
    hlwjia
        31
    hlwjia  
       2018-01-08 21:45:11 +08:00 via iPhone
    @AlwaysBee 他们有股票的数据价格的接口吗?
    AlwaysBee
        32
    AlwaysBee  
       2018-01-08 21:46:41 +08:00
    @hlwjia 做舆情分析的,你可以咨询一下他们,官网应该有联系方式的
    chinvo
        33
    chinvo  
       2018-01-08 21:51:02 +08:00
    @RangerWolf #26 大概是我理解错了,以为你这个会有连续数据,15 分钟和 1 小时数据都是 N/A。仔细想想其实这个“大 V ”和“消息”是不连续的,没人发帖就不会有数据。
    RangerWolf
        34
    RangerWolf  
    OP
       2018-01-08 22:09:58 +08:00
    @chinvo 是的~ 抓的数据本身就是不连续的
    RangerWolf
        35
    RangerWolf  
    OP
       2018-01-08 22:11:05 +08:00
    @guests 还是样本不足

    我再想想办法,多谢
    guanaco
        36
    guanaco  
       2018-01-08 22:19:58 +08:00 via iPhone   ❤️ 1
    @RangerWolf 得到研究员发布的最新研报是有作用的,舆情跟踪各大股票论坛,每只个股加入自选股的数量变化是最有效的
    huijian222
        37
    huijian222  
       2018-01-08 22:22:48 +08:00
    人工标注 3W 条。。。楼主也是牛逼。。。
    RangerWolf
        38
    RangerWolf  
    OP
       2018-01-08 22:27:15 +08:00
    @huijian222 数据为王 没有数据没办法
    其实还是花了不少钱请人一起标注的
    RangerWolf
        39
    RangerWolf  
    OP
       2018-01-08 22:28:01 +08:00
    @guanaco 不知道方便分享一下完整的研报?
    guanaco
        40
    guanaco  
       2018-01-08 22:33:27 +08:00 via iPhone
    @RangerWolf 我也在找这个
    hlwjia
        41
    hlwjia  
       2018-01-08 23:14:45 +08:00 via iPhone
    @AlwaysBee 谢谢
    nasmatic
        42
    nasmatic  
       2018-01-09 01:03:30 +08:00
    git 上有个项目通过 google NLP api 分析 Trump 的 twitter 的情绪来对接交易的,LZ 可以参考下。名字好像叫 trump2cash
    admirez
        43
    admirez  
       2018-01-09 06:16:17 +08:00 via iPhone
    真的还不如好好研究买点好股票放着,或者资金大一点抢东方红
    yougezai
        44
    yougezai  
       2018-01-09 09:21:51 +08:00   ❤️ 1
    方向没毛病啊,能不能增加板块,关键字 这类的
    ming7435
        45
    ming7435  
       2018-01-09 09:37:33 +08:00
    沪指 10000 点居然是看平或无用
    RangerWolf
        46
    RangerWolf  
    OP
       2018-01-09 09:50:11 +08:00
    @yougezai 感谢, 下一步就是逐步的细化
    Felldeadbird
        47
    Felldeadbird  
       2018-01-09 09:54:01 +08:00
    如果可以针对指定板块就更加美滋滋了。
    tmkook
        48
    tmkook  
       2018-01-09 10:39:05 +08:00   ❤️ 2
    http://ai.baidu.com/tech/nlp/sentiment_classify
    还不如用百度的,我觉得分析的比你准确多了
    Clarencep
        49
    Clarencep  
       2018-01-09 11:15:36 +08:00


    这个 AI 简直是 zz...
    RangerWolf
        50
    RangerWolf  
    OP
       2018-01-09 11:47:49 +08:00
    @Clarencep 很尴尬~
    继续加油了
    radiolover
        51
    radiolover  
       2018-01-09 11:50:40 +08:00   ❤️ 1
    在中国,金融大数据舆情分析行业的水很深,假观点其实比真观点要多
    Jackliu
        52
    Jackliu  
       2018-01-09 12:38:24 +08:00   ❤️ 1
    hlwjia
        53
    hlwjia  
       2018-01-09 13:20:25 +08:00 via iPhone
    @Jackliu 赞!谢谢分享
    takato
        54
    takato  
       2018-01-09 13:23:23 +08:00 via iPhone
    @radiolover 把信号稀释到 random 水平就可以了。
    Artists
        55
    Artists  
       2018-01-09 13:24:08 +08:00
    股票这玩意儿是人多说了算吗?
    BlueFly
        56
    BlueFly  
       2018-01-09 14:21:30 +08:00
    「一盈二平七亏」的零和游戏的股票市场

    你跟我说随大流?
    TangMonk
        57
    TangMonk  
       2018-01-09 14:37:11 +08:00 via Android
    @Artists 买的人多了就涨吧
    Artists
        58
    Artists  
       2018-01-09 14:40:53 +08:00
    @TangMonk #57 请参考 56 楼
    yun
        59
    yun  
       2018-01-09 15:16:05 +08:00
    谢楼主分享,看了楼主网站,你的这个股市分析是用 Zepplin + Cassandra 做出来的吗?
    RangerWolf
        60
    RangerWolf  
    OP
       2018-01-09 15:35:30 +08:00   ❤️ 1
    @yun 不是啊~ flask + echarts
    liujm
        61
    liujm  
       2018-01-09 16:07:19 +08:00
    @RangerWolf 请问你的舆情分析算法实现用什么来做的? jieba + tf-idf +分类算法?
    RangerWolf
        62
    RangerWolf  
    OP
       2018-01-09 16:33:39 +08:00
    @liujm 只能说是基于开源类库 加了一些自己的脑洞~
    kingda
        63
    kingda  
       2018-01-09 16:45:49 +08:00
    mark 下
    liujm
        64
    liujm  
       2018-01-09 17:30:55 +08:00
    @RangerWolf 主要是我有时候也会做类似的文本分类,感觉否定+情感词开源类库不太准确
    RangerWolf
        65
    RangerWolf  
    OP
       2018-01-09 18:58:52 +08:00
    @liujm 之前测试过 jieba 分词的时候增加股市相关词库 发现效果反而下降了
    也不知道为什么。。。

    另外就是转折关系 双重否定 没有什么太好的办法 目前
    enzohobmg
        66
    enzohobmg  
       2018-01-09 19:52:07 +08:00
    有想法总是好的
    tttty
        67
    tttty  
       2018-01-10 11:01:04 +08:00
    @RangerWolf 情感分析的接口用的哪里的?
    RangerWolf
        68
    RangerWolf  
    OP
       2018-01-10 11:03:45 +08:00
    @tttty 股市的是自研的
    oneFan
        69
    oneFan  
       2018-01-10 20:48:43 +08:00
    撸主这个想法也可以用在其他领域 比如足球彩票?
    RangerWolf
        70
    RangerWolf  
    OP
       2018-01-11 08:09:23 +08:00
    @oneFan 理论上是吧~ 不过没有玩过足彩 也没有相关数据
    wizardforcel
        71
    wizardforcel  
       2018-01-12 14:19:14 +08:00 via Android   ❤️ 1
    大多数人都在瞎 jb 预测。整合的时候最好设定个阈值,然后按照论坛声望加权。
    RangerWolf
        72
    RangerWolf  
    OP
       2018-01-12 19:03:41 +08:00
    @wizardforcel 其实已经做了
    这部分数据跟统计结果没有公开而已

    也是花了非常非常多的时间跟精力做出来的东西
    BeForever
        73
    BeForever  
       2018-01-15 15:25:20 +08:00
    您链接挂啦。。挂啦。。。啦、、、
    RangerWolf
        74
    RangerWolf  
    OP
       2018-01-15 16:23:33 +08:00
    @BeForever 今天早上就发现了 一直没得空处理 哎
    多谢提醒
    BeForever
        75
    BeForever  
       2018-01-16 18:39:53 +08:00
    @RangerWolf 不客气~坐等您处理好了去学习哈哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2736 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:19 · PVG 10:19 · LAX 18:19 · JFK 21:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.