V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
oness
V2EX  ›  分享创造

分享下爬山虎采集器的自动识别算法动态图

  •  
  •   oness · 2017-12-29 21:26:29 +08:00 · 4691 次点击
    这是一个创建于 2281 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前的主题都是文字性描述,可能不够直观。之前:https://www.v2ex.com/t/411413
    估计很多人没看明白,或者看不下去(体验不好。。。

    刚做了几个动态图,用来演示爬山虎采集器的自动识别算法。

    1.东方财富网的采集效果


    2.新浪新闻的采集效果


    3.v2 的效果


    测试的都是列表页,爬山虎也能够深入到内容页去抓取(通过抓取链接的深入),也是非常简单。

    目前来说,列表数据和分页的识别率都还可以。
    相对于其他采集软件来说,优势就是稍微简单、方便点。

    爬山虎采集器网站: http://www.51pashanhu.com/
    (网站目前来说,做的很烂,准备优化一下 )
    26 条回复    2018-01-07 19:48:06 +08:00
    slgz
        1
    slgz  
       2017-12-30 17:09:17 +08:00
    马克
    fange01
        2
    fange01  
       2017-12-30 18:36:27 +08:00
    体验了淘宝和京东,不错。
    faketemp
        3
    faketemp  
       2018-01-02 14:28:24 +08:00 via iPhone
    局域网中无法使用吗 打开软件一直提示请确认系统日期正确,软件即将关闭 然后就自动退出?@oness
    NirvanaCN
        4
    NirvanaCN  
       2018-01-03 10:25:52 +08:00
    简单使用了下,确实比较简单好上手,但是发现两个问题:1.官网显示免费版可导出 CSV,实际只能 1000 条 /天 TXT ; 2.脚本命令必须付费才能使用,这点比较蛋疼
    oness
        5
    oness  
    OP
       2018-01-03 10:45:19 +08:00
    @faketemp 目前只能在联网状态下用
    jyf
        6
    jyf  
       2018-01-03 12:30:41 +08:00   ❤️ 1
    @oness 你这样搞还是以前共享软件的思路 建议你改变思路 让每个运行者通过自己的独特 ip 来对他人提供收费服务 赚取到的费用来用支撑他使用你这个软件的权限 把平台做起来多好
    faketemp
        7
    faketemp  
       2018-01-03 12:42:26 +08:00 via iPhone
    @oness 既然已经限制了免费版的核心功能 就没必要必须联网使用了吧?比如想在局域网中统计内网网站少量数据啥的 很不方便建议考虑。还有字段设置正则表达式替换时“.”好像不支持匹配换行?建议增加多行模式
    oness
        8
    oness  
    OP
       2018-01-03 13:31:23 +08:00
    @jyf 嗯,这个思路很好。但是因为技术局限。很难把这种 P2P 模式做好,做文档。
    oness
        9
    oness  
    OP
       2018-01-03 13:36:13 +08:00
    @faketemp 的确有在内网采集的需求,我在考虑下。 正则表达式后面会加几个配置选择。感谢建议
    oness
        10
    oness  
    OP
       2018-01-03 13:36:42 +08:00
    @NirvanaCN 这个网站还没更新,稍后就改
    faketemp
        11
    faketemp  
       2018-01-03 15:04:40 +08:00
    @oness 还有测试使用爬山虎时类似下面内容列表如何准确识别呢? Xpath 需要手工修改吗?请教……
    比如 http://www.shui5.cn/article/NaShuiTiaoZhen/
    Myflos
        12
    Myflos  
       2018-01-03 15:50:54 +08:00
    @oness 可以爬 58 的手机号吗
    oness
        13
    oness  
    OP
       2018-01-03 19:29:30 +08:00
    @Myflos 应该可以
    oness
        14
    oness  
    OP
       2018-01-03 19:29:46 +08:00
    @faketemp 修改列表 xpath ://div[@class='arcList']/ul/li
    faketemp
        15
    faketemp  
       2018-01-04 08:49:54 +08:00
    @oness 这样设置无法正确解析列表元素,具体如图
    ![xJv3e.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJv3e.jpg)

    想要的结果图类似下图(问题是图中仅采集了各段首条信息,段中其他条目数据如何设置才能同时采集到?)
    ![xJWpc.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJWpc.jpg)
    yanza
        16
    yanza  
       2018-01-04 10:58:39 +08:00
    挺不错的,不过代理只能添加一个,如果可以设置成批量添加代理就更好了,使用一个代理很容易被封
    oness
        17
    oness  
    OP
       2018-01-04 12:18:12 +08:00
    @faketemp 用 //div[@class='arcList']/ul/li xpath,然后点击字段列的下拉菜单,“选择元素”,然后点击要列表其中一项就可以。
    oness
        18
    oness  
    OP
       2018-01-04 12:19:36 +08:00
    @yanza 代理的话,正准备强化下,提供 adsl 拨号和路由器拨号 2 种
    chroming
        19
    chroming  
       2018-01-04 18:35:36 +08:00
    只有 Win 端啊
    oness
        20
    oness  
    OP
       2018-01-04 19:34:49 +08:00
    @chroming 嗯,只会 win。。。
    muyan
        21
    muyan  
       2018-01-05 09:39:52 +08:00
    老铁,软件免费不
    oness
        22
    oness  
    OP
       2018-01-05 11:03:49 +08:00
    @muyan 有免费版本
    buyaoshuohua
        23
    buyaoshuohua  
       2018-01-05 17:20:16 +08:00
    有类似的软件了 八爪鱼 火车头都可以吧
    oness
        24
    oness  
    OP
       2018-01-05 19:11:19 +08:00
    @buyaoshuohua 嗯,相比其他采集器软件,爬山虎更加简单、易用些。上手感受下就知道差异了
    fange01
        25
    fange01  
       2018-01-05 23:22:44 +08:00
    能发布到哪些网站?
    oness
        26
    oness  
    OP
       2018-01-07 19:48:06 +08:00
    @fange01 主流 cms, dz,wordpress,dede 等待
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1116 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 66ms · UTC 18:49 · PVG 02:49 · LAX 11:49 · JFK 14:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.