V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jdhao
V2EX  ›  程序员

这个大专栏网站是爬虫网站?窃取别人的文章

  •  
  •   jdhao · 2020-09-05 22:45:31 +08:00 · 3891 次点击
    这是一个创建于 449 天前的主题,其中的信息可能已经有所发展或是发生改变。
    23 条回复    2020-09-07 16:25:42 +08:00
    murmur
        1
    murmur   2020-09-05 22:47:22 +08:00
    爬了 121080 这么多页帖子,也没广告,这啥垃圾网站
    jdhao
        2
    jdhao   2020-09-05 22:49:50 +08:00
    @murmur 难道是作者想自己收藏
    murmur
        3
    murmur   2020-09-05 22:52:08 +08:00
    @jdhao 这是能备案的网站,应该是国内服务器,点了一下切换栏目和分页,卡的一笔,这站长可能弱智到索引都没加,稍微来点压力整站就炸了
    winnerczwx
        4
    winnerczwx   2020-09-05 22:57:14 +08:00 via iPhone
    简单做下反爬吧
    datou
        5
    datou   2020-09-05 23:14:27 +08:00
    果然是 wordpress....
    heiheidewo
        6
    heiheidewo   2020-09-05 23:14:44 +08:00
    @jdhao 现在每天只有 6k ip, 等流量大点再放广告
    spark
        7
    spark   2020-09-05 23:17:44 +08:00
    @heiheidewo 6k ip 是怎么看出来的?
    zyqf
        8
    zyqf   2020-09-05 23:25:46 +08:00 via Android   ❤️ 1
    应该是有广告的,然后前段时间腾讯通知个人备案不允许挂广告。。。
    learningman
        9
    learningman   2020-09-06 08:42:35 +08:00
    @winnerczwx 然后顺便把 SEO 整挂
    yunyingsilue
        10
    yunyingsilue   2020-09-06 16:30:46 +08:00
    mamicode 和 bubuko 之类也是,就知道爬别人网站
    ushio
        11
    ushio   2020-09-06 17:44:52 +08:00   ❤️ 1
    很多这种垃圾站,所以现在我写文章都会给图片加上水印,插入自己公众号二维码
    han777
        12
    han777   2020-09-06 18:28:40 +08:00
    UI 很像 hexo 的 next 主题啊
    han777
        13
    han777   2020-09-06 18:28:57 +08:00
    这就是个静态网站
    Tianyan
        14
    Tianyan   2020-09-06 20:53:54 +08:00
    @han777 看起来像 next,不过确实是 wp 网站
    Tianyan
        15
    Tianyan   2020-09-06 20:54:43 +08:00
    @murmur wp 的网站 啥都不需要 只要服务器配置够高就行了
    xiqingongzi
        16
    xiqingongzi   2020-09-07 09:18:56 +08:00
    可能是这个哥们的? https://www.v2ex.com/t/529521
    他之前搞了个大专栏的开源项目
    hafuhafu
        17
    hafuhafu   2020-09-07 13:48:11 +08:00
    这不是那种“内容农场”吗?爬 /生成一堆文章来提高自己 SEO,不过好像又没看到广告啥的..
    OKOOk666
        18
    OKOOk666   2020-09-07 14:49:22 +08:00
    这不是很正常嘛,没什么大惊小怪的,我也有一个文学类的爬虫站 http://www.wlkankan.com
    jdhao
        19
    jdhao   2020-09-07 15:04:14 +08:00 via Android
    @xiqingongzi 应该是的,他那个帖子里面的开源项目已经删了,看不到了
    jdhao
        20
    jdhao   2020-09-07 15:05:19 +08:00 via Android
    @OKOOk666 正常个屁,爬取别人内容,也不表明来源,这叫正常吗
    xmge
        21
    xmge   2020-09-07 15:06:45 +08:00
    @heiheidewo 求 6k ip 怎么看出来的
    OKOOk666
        22
    OKOOk666   2020-09-07 15:08:39 +08:00
    @jdhao 那些狗屁文章有没版权,爬了也没什么
    zifangsky
        23
    zifangsky   2020-09-07 16:25:42 +08:00
    18L 可真理直气壮,呵呵
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4160 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:20 · PVG 14:20 · LAX 22:20 · JFK 01:20
    ♥ Do have faith in what you're doing.