V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
2ME
V2EX  ›  程序员

又一个天马行空的爬虫需求 大佬们来分析一下

  •  
  •   2ME · 2018-02-11 10:55:03 +08:00 · 4824 次点击
    这是一个创建于 2459 天前的主题,其中的信息可能已经有所发展或是发生改变。

    leader 让我写这么个爬虫 爬取目标是文章、新闻、资讯。

    初始给我个关键词库,关键词千奇百怪,可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。

    然后让我用这些词在 B 家上搜索,把是新闻的页面的新闻内容爬取下来。

    从几个角度分析一下可行性?

    首先我得先能识别他是不是新闻,其次是我得识别出他标题和内容在哪个标签里抽取出来,在这是这么搞的效率问题,一天能有多少产出。

    我试着拿几个词搜了一下,前几页看到新闻的几率渺茫,而且从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题。。

    15 条回复    2018-02-11 16:08:49 +08:00
    cdwyd
        1
    cdwyd  
       2018-02-11 11:25:21 +08:00 via Android
    百度不是有个百度新闻,去那里搜出来的都是新闻吧
    2ME
        2
    2ME  
    OP
       2018-02-11 11:28:22 +08:00
    @cdwyd 最后写了 从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题 主要是关键词不一定是词 大部分情况下都是啥都搜不到
    fire0594
        3
    fire0594  
       2018-02-11 12:46:16 +08:00 via iPhone   ❤️ 2
    从页面自动抽取标题和内容,python 有 goose 和 readability 两个库
    ospider
        4
    ospider  
       2018-02-11 12:58:06 +08:00 via Android
    你这不是爬虫问题,是文本分类,也就是 nlp 的问题
    tttwww18
        5
    tttwww18  
       2018-02-11 13:10:03 +08:00
    搜索引擎的 SERP 里面会有一些相对固定的返回模式,可以据此判断该 query 是否属于 news domain 然后再做提取处理。
    2ME
        6
    2ME  
    OP
       2018-02-11 13:30:35 +08:00
    @ospider 判断一个源是不是新闻不一定要 nlp 应该也可以从标记样式页面结构之类的入手吧 不过 nlp 对于我这个脚本仔来说确实太难了
    soulmine
        7
    soulmine  
       2018-02-11 13:54:46 +08:00
    咱有个办法呀 你可以换个思路呀 比如你广撒网 然后爬十几二十个新闻网站 然后拿标题和你的那些关键词对比 看符不符合不就行了 ww 在或者说你去新闻这种地方去搜搜?
    miniliuke
        8
    miniliuke  
       2018-02-11 13:58:45 +08:00 via Android
    你找几家大的新闻网站,或者头条之类的。里面都是新闻,而且新闻网不都是我抄你,你抄我吗
    2ME
        9
    2ME  
    OP
       2018-02-11 13:59:41 +08:00
    @soulmine 这种思路被 leader 做为没有办法的办法 - - 需求内容一般都是 to B 的 有些新闻源都被爬烂了
    2ME
        10
    2ME  
    OP
       2018-02-11 14:01:23 +08:00
    @miniliuke B2B 的新闻资讯 和头条 163 这些不太搭边 不然直接爬这些新闻站就完了 需求用百度搜就是想爬一些小企业站的原创伪原创吧估计
    Pinwheel
        11
    Pinwheel  
       2018-02-11 15:37:18 +08:00
    我们也有这样的需求,用关键词去搜索引擎搜索,不过我们是要做更细的历史、体育之类更加细分的东西。

    先去爬门户网站的特定栏目数据作为样本,分词统计概率,再将从搜索引擎抓下来的内容用贝叶斯分类去找概率最高的,基本可以满足要求。
    miniliuke
        12
    miniliuke  
       2018-02-11 15:47:48 +08:00 via Android
    @Pinwheel 我感觉他是想要企业新闻类似的,一般企业新闻不会在新闻站中出现。只有大部分只有企业官网上有......就怕各个企业发稿天马行空
    2ME
        13
    2ME  
    OP
       2018-02-11 15:57:58 +08:00
    @miniliuke 是这需求
    @Pinwheel 我是 SEO 爬完按 DM25 匹配一下就行了 别的对我来说就超纲了 = =
    2ME
        14
    2ME  
    OP
       2018-02-11 16:08:27 +08:00
    #13 DM25 -> BM25
    insoxin
        15
    insoxin  
       2018-02-11 16:08:49 +08:00 via Android
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2626 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 15:33 · PVG 23:33 · LAX 07:33 · JFK 10:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.