V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
people2net
V2EX  ›  Java

大家试试这个抓页面特定内容的web应用如何? 可以用来抢票,实时监控特定页面部分

  •  
  •   people2net · 2012-07-20 11:40:50 +08:00 · 4670 次点击
    这是一个创建于 3419 天前的主题,其中的信息可能已经有所发展或是发生改变。
    使用jsoup/jquery开发的web应用

    http://www.gbin1.com/technology/democenter/20120720jsoupjquerysnatchpage/index.html

    可以指定按特定时间间隔抓取页面中指定的元素。 效果还不错,大家觉得如何?
    17 条回复    1970-01-01 08:00:00 +08:00
    people2net
        1
    people2net   2012-07-20 11:46:08 +08:00
    大家也可以抓新浪首页的滚动消息:

    地址:http://weibo.com/
    元素:.itemt
    间隔:10
    bcxx
        2
    bcxx   2012-07-20 12:00:07 +08:00
    啊!好犀利!

    楼主你好,楼主再见!
    binux
        3
    binux   2012-07-20 12:21:57 +08:00
    siteproxy.jsp

    没意思。。
    people2net
        4
    people2net   2012-07-20 13:01:41 +08:00
    一个简单的实现,大家可以完善
    dongbeta
        5
    dongbeta   2012-07-20 13:05:51 +08:00
    ... JAVA 节点 ...
    cxh116
        6
    cxh116   2012-07-20 13:07:27 +08:00
    本地运行就没有啥意思了 如果运行在服务器到时还不错
    js解析是个大问题,直接运行个浏览器机子的配置要强 不过估计并发还是上不去
    manhere
        7
    manhere   2012-07-20 13:14:01 +08:00
    要抓取的东西没有id怎么办?
    chairo
        8
    chairo   2012-07-20 13:31:10 +08:00
    抓过来没样式没js的有啥用?
    BOYPT
        9
    BOYPT   2012-07-20 13:41:51 +08:00
    @manhere 这是个java库jsoup解析HTML的例子,使用jquery的选择器语句灵活选择。

    Python里面也有个pyquery,完全封装了jquery的操作方式,处理HTML特别方便的。
    valianliu
        10
    valianliu   2012-07-20 13:51:22 +08:00   ❤️ 1
    有个Chrome插件叫Page Monitor我会随便告诉你么。。。。。
    muzuiget
        11
    muzuiget   2012-07-20 15:48:54 +08:00
    @BOYPT 不是的,抓包发现有个「siteproxy.jsp」 用服务器实现跨域取得页面内容,然后扔回浏览器用 JQuery 解析

    注定抓不了需要登录的页面了,还不如直接用浏览器扩展脚本搞定,浏览器扩展脚本的xmlHttpRequest 有跨域权限。
    csx163
        12
    csx163   2012-07-20 17:02:20 +08:00
    支持xpath就完美了
    BOYPT
        13
    BOYPT   2012-07-21 22:28:50 +08:00
    @muzuiget 这也需要抓包么,人家源码里面写着好吧。然后这个页面是文章 http://www.gbin1.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 的例子好吧。
    muzuiget
        14
    muzuiget   2012-07-22 00:15:48 +08:00
    @BOYPT 一开始没想到会去看源码吧,用 httpfox 监视一下就马上看到结果了。

    好吧,确实是服务器解析抓取的内容,因为我瞄了返回的 HTML,看到 html/head 标签以及一大票内容就以为是把目标页面的 HTML 发过来了,而不是仅仅抓取的内容的 HTML。那些多余内容都是广告和统计代码。
    CP9
        15
    CP9   2012-07-23 10:04:31 +08:00
    这个东西怎么用啊?可以用来抓去网站的一些壁纸吗?求使用方法
    xingzhi
        16
    xingzhi   2012-07-24 14:12:42 +08:00
    请教,在抓取内容时,遇到要ajax加载才能出现的内容怎么办呢
    people2net
        17
    people2net   2012-07-24 14:19:02 +08:00
    那你可以考虑抓加载使用的容器
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2294 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:41 · PVG 08:41 · LAX 16:41 · JFK 19:41
    ♥ Do have faith in what you're doing.