V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
NoOneNoBody
V2EX  ›  Python

有什么简易的京东爬虫(只抓取几个商品价格)

  •  
  •   NoOneNoBody · 2024-08-21 14:57:06 +08:00 · 4114 次点击
    这是一个创建于 378 天前的主题,其中的信息可能已经有所发展或是发生改变。
    简单说,就是不想打开浏览器访问网页,获取指定 link 商品当时的价格(监视)
    也就固定几个页面,一天获取两次左右,不会高频

    搜到的都是大规模爬取,或者搜索泛抓取,不太适合我这种指定目标的方式
    第 1 条附言  ·  2024-08-21 15:50:27 +08:00
    花钱就不必了,并不是说这个工作不值钱
    只是本来就想自己写,玩玩 pandas+PyQtChart
    刚好想到这个需求而已

    对做过或研究过京东的人来说,就不是个事
    但对没做过的人来说,就是个工作量,所以说没有不尊重这个工作价值的意思
    只是我就一个家宽 ip ,那边 app 还登录着呢,自己摸索要不断试错,试错多了,怕波及帐号
    就看看有没有人提点一下,试错降到最低

    如果大家抗拒伸手党,那我换个需求算了
    第 2 条附言  ·  2024-08-22 18:40:32 +08:00
    测试了一下:
    1. 无头,不带 cookies -> 跳转登录
    2. 无头,带登录 cookies -> 跳转登录
    3. 无头,直接使用 jd 登录的浏览器原本的 profile -> 没有跳转登录,但整页代码就没搜到价格对应的数字,价格位置的 dom element text 为空
    4. 有头,同 3
    ……
    用命令直接呼出 https://t.jd.com/follow/product?c=670&index=2 我的关注
    有趣,c=670 有效(电脑分类)但 index=2 无效(第二页),还是显示第一页

    不测了,再测我的帐号怕要被拉黑
    看样子是个大工程,pass ,找个新玩具
    28 条回复    2024-08-22 18:12:16 +08:00
    huangpingdong
        1
    huangpingdong  
       2024-08-21 15:08:35 +08:00
    有回报吗
    vituralfuture
        2
    vituralfuture  
       2024-08-21 15:09:29 +08:00 via Android
    自己写个不就行了
    jrient
        3
    jrient  
       2024-08-21 15:11:21 +08:00
    给 gpt 一个页面 url 让她帮你写一个 python 程序就行了
    Y0s1Yoq4UY1yUVmA
        4
    Y0s1Yoq4UY1yUVmA  
       2024-08-21 15:15:52 +08:00
    很简单的,让克劳德都可以写出来
    NoOneNoBody
        5
    NoOneNoBody  
    OP
       2024-08-21 15:20:56 +08:00
    @vituralfuture #2
    @jrient #3
    html 内并无价格,所以还要知道价格从哪个 js 来,以及提交什么信息,例如位置(不同地区价格不同)
    gpt 也不是万能的
    huangpingdong
        6
    huangpingdong  
       2024-08-21 15:21:36 +08:00
    一杯奶茶吧,我给你写个 哈哈哈
    LiLaoMo
        7
    LiLaoMo  
       2024-08-21 15:27:18 +08:00
    目的是什么?
    如果是想等个好价,慢慢买 app 适合你。
    自己实现不难吧?网上教程或者开源项目改一改?
    dai269619118
        8
    dai269619118  
       2024-08-21 15:33:53 +08:00
    试试 selenium 只要是 pc 端,selenium 用起来最稳
    luzemin
        9
    luzemin  
       2024-08-21 15:34:41 +08:00   ❤️ 10
    也就固定几个页面,一天获取两次左右
    ----------------------------------------------------------
    我早晚两次打开 link 看眼价格发你微信,包月 100
    queue
        10
    queue  
       2024-08-21 15:40:54 +08:00
    @luzemin 《真》人工智能
    yidev
        11
    yidev  
       2024-08-21 15:55:28 +08:00
    无头浏览器
    iawes
        12
    iawes  
       2024-08-21 15:55:52 +08:00
    @jrient GPT-4o-Mini-128k 的机器人图片

    GPT-4o-Mini-128k
    Poe

    抱歉,我无法帮助您进行爬虫或抓取网站的内容。
    dcmi2021
        13
    dcmi2021  
       2024-08-21 16:05:00 +08:00
    @luzemin 哈哈哈哈哈
    panxiuqing
        14
    panxiuqing  
       2024-08-21 16:21:29 +08:00
    @NoOneNoBody #5 现在基本都基于无头浏览器
    xiaoqidev
        15
    xiaoqidev  
       2024-08-21 16:34:29 +08:00
    京东联盟开放平台,直接调用官方接口
    Baratheon
        16
    Baratheon  
       2024-08-21 16:44:59 +08:00
    雇个大学生
    cslive
        17
    cslive  
       2024-08-21 17:09:00 +08:00
    风控不好过
    wukaige
        18
    wukaige  
       2024-08-21 17:34:37 +08:00
    我记得不是有显示 JD 历史价格的油猴脚本吗,上面有商品的历史价格,免得你自己去爬了。
    feiniu
        19
    feiniu  
       2024-08-21 17:49:01 +08:00
    直接雇佣大学生,5 块钱 1 天
    knva
        20
    knva  
       2024-08-21 17:52:58 +08:00
    慢慢研究吧,全是混淆 js
    easychen
        21
    easychen  
       2024-08-21 21:28:22 +08:00
    可以试试 Check 酱 这个浏览器插件,支持 webhook ,就是要开着浏览器… https://github.com/easychen/checkchan-dist
    fbichijing
        22
    fbichijing  
       2024-08-21 21:31:23 +08:00
    @luzemin 有如黑客雇保安拔网线的既视感。找不到,根本找不到!
    topc101
        23
    topc101  
       2024-08-22 08:06:42 +08:00
    cherryas
        24
    cherryas  
       2024-08-22 11:27:33 +08:00
    selenium 一把梭。 如果说就是不想打开网页,必须破解 js ,你还觉得这个技术不值钱,那你自己慢慢研究吧。
    TerranceL
        25
    TerranceL  
       2024-08-22 13:11:01 +08:00
    curl + grep
    naythefirst01
        26
    naythefirst01  
       2024-08-22 13:39:50 +08:00
    有一些第三方的比价工具 里面可以设置价格提醒
    kekeones
        27
    kekeones  
       2024-08-22 15:05:14 +08:00
    之前用 C# 写过一套
    vivisidea
        28
    vivisidea  
       2024-08-22 18:12:16 +08:00
    https://www.webscraper.io 可以试试这个插件
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1239 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:31 · PVG 01:31 · LAX 10:31 · JFK 13:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.