V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
WaJueJiPrince
V2EX  ›  Python

[爬虫与 5G] 5G 的到来会对爬虫速度有质的改变吗??

  •  
  •   WaJueJiPrince · 2019-06-09 20:45:47 +08:00 · 7841 次点击
    这是一个创建于 1993 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近的 5G 技术,炒的是非常火热,大家都在畅想着,5G 的到来会对什么行业有影响,会在哪个地方有爆发?

    我是写爬虫的,所以就联想到 5G 的到来,会对爬虫有质的提升吗?又会改变爬虫哪些地方呢? 经常写爬虫的朋友应该知道,爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归。所以对于 CPU 的利用不是太好,我指的是用 Python 来编写爬虫。由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。 听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。

    • 那么这么快的速度,对于爬虫来说以后是不是意味着我们不需要编写“太好的”,异步代码或者是多线程代码。对于代码的要求,是不是就降低了呢。

    • 以后我们写的爬虫,问题是不是又集中在了 CPU 密集型了呢?以及验证码,IP 这些反爬措施上。

    91 条回复    2019-06-11 23:53:26 +08:00
    slanternsw
        1
    slanternsw  
       2019-06-09 20:51:23 +08:00 via Android
    有的没的。
    “爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归”
    “听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。”
    来说说 5G 在价格延迟网速上哪一个可以打得过万兆有线?
    chinvo
        2
    chinvo  
       2019-06-09 20:52:58 +08:00 via iPhone   ❤️ 7
    @slanternsw #1 别问,问就低延迟高带宽,有线不存在的,光速轻易突破,是未来,是历史的车轮,你们这些螳螂是要被……
    wateryessence
        3
    wateryessence  
       2019-06-09 20:53:40 +08:00   ❤️ 1
    你真的写过爬虫?
    1OF7G
        4
    1OF7G  
       2019-06-09 20:54:49 +08:00   ❤️ 16
    吃瓜群众被无良媒体带节奏也就罢了,互联网从业人员对 5G 这样的认知也太不到位了吧!
    strcmp
        5
    strcmp  
       2019-06-09 20:55:44 +08:00   ❤️ 4
    既不懂爬虫也不懂 5G
    leaflxh
        6
    leaflxh  
       2019-06-09 20:57:37 +08:00   ❤️ 2
    @chinvo 油炸
    kawkeye
        7
    kawkeye  
       2019-06-09 21:02:24 +08:00 via Android
    @strcmp 爬虫:5G/个,可用于合成光明之剑
    Abbeyok
        8
    Abbeyok  
       2019-06-09 21:05:13 +08:00
    骗金币失败的例子
    azh7138m
        9
    azh7138m  
       2019-06-09 21:12:45 +08:00 via Android
    @chinvo 不用月底了,直接加急吧
    WaJueJiPrince
        10
    WaJueJiPrince  
    OP
       2019-06-09 21:16:22 +08:00
    @wateryessence 写过 并且还写过框架!!为什么木有速度的提升呢??
    WaJueJiPrince
        11
    WaJueJiPrince  
    OP
       2019-06-09 21:17:30 +08:00
    @Abbeyok 我只想知道原因 至于喷子就不要说话了 求解答疑问!!!!!!!!
    WaJueJiPrince
        12
    WaJueJiPrince  
    OP
       2019-06-09 21:19:51 +08:00
    @1OF7G 求解答原因 别过说其他没用的啊 一个个评论都是浅尝辄止 也给不出原因 就说没啥用??我想要的是结果 不是媒体带不带偏????没一个给出具体答案的啊???
    Ley
        13
    Ley  
       2019-06-09 21:21:45 +08:00 via Android
    看了你的描述,不过感觉爬虫和移动网络没有太大关系吧,比较好奇你为什么会认为爬虫依赖移动网络?
    另外一个个人的小建议是慎用超过三个感叹号,可能会影响阅读效率…
    WaJueJiPrince
        14
    WaJueJiPrince  
    OP
       2019-06-09 21:22:50 +08:00
    @slanternsw 您的意思是 5G 其实还是基于我们目前的有限网络吧?? 所以速度并不会提升
    Cheons
        15
    Cheons  
       2019-06-09 21:23:54 +08:00 via Android
    ???你服务器用的移动设备
    WaJueJiPrince
        16
    WaJueJiPrince  
    OP
       2019-06-09 21:25:30 +08:00
    @Ley 我的了解目前 5G 速度较快 所以觉得目前可能这个速度会对爬虫比较有利 那是不是 5G 还是基于现有的有限技术?那么如果目前什么都不考虑,网站速度完全无延迟会不会对爬虫速度有提升呢?会不会降低协程 线程编程技术呢?
    Cheons
        17
    Cheons  
       2019-06-09 21:27:05 +08:00 via Android
    2g 换 3g 3g 换 4g 和我

    打魔兽有关系嘛?
    WaJueJiPrince
        18
    WaJueJiPrince  
    OP
       2019-06-09 21:28:44 +08:00
    @Cheons 我的意思只是网速的增加会不会对爬虫编写代码要求有所降低呢?
    WaJueJiPrince
        19
    WaJueJiPrince  
    OP
       2019-06-09 21:31:36 +08:00
    看了一个消息就是 5G 的速度是要快于电信的 100M 光纤宽带的
    HuLiY
        20
    HuLiY  
       2019-06-09 21:32:15 +08:00 via Android
    不如把标题改成[高带宽低延迟下,爬虫将如何发展]因为 5g 再快也不如有线网络快。
    另,个人觉得网络再快也会使用多线程+分布式+代理。所以网络只能加快爬虫的速度,对爬虫的方式没有太多改变。
    WaJueJiPrince
        21
    WaJueJiPrince  
    OP
       2019-06-09 21:36:17 +08:00
    @HuLiY 是的 我的意思就是 [高带宽低延迟] ,可能有些描述不清吧 有些人就断章取义了 目前的方式绝对是线程 协程 分布式 反爬 验证码 IP 。。。。 其实爬虫要解决的问题还有很多呢
    lanternxx
        22
    lanternxx  
       2019-06-09 21:38:01 +08:00
    先不说 5G 到底能不能实现比有线延迟低速度快 然后再假设你的电脑也使用 5G 来上网 但是你要爬的服务器不还是有线接入?
    wc951
        23
    wc951  
       2019-06-09 21:38:32 +08:00 via Android
    5g 只是影响端到端,你服务器不走光纤走 5g ?
    WaJueJiPrince
        24
    WaJueJiPrince  
    OP
       2019-06-09 21:40:19 +08:00
    @lanternxx @wc951 可能我想的太完美了
    good1uck
        25
    good1uck  
       2019-06-09 22:16:28 +08:00 via Android
    5g 的到来会提高人的学习速度吗

    一定程度上吧
    mumbler
        26
    mumbler  
       2019-06-09 22:22:45 +08:00 via Android
    除非对方服务器无限带宽,爬虫才用得上 5G
    lang1pal
        27
    lang1pal  
       2019-06-09 22:24:16 +08:00
    万兆网线也带不起硬盘的 io 吧 硬盘的 4k 性能有限
    boom7
        28
    boom7  
       2019-06-09 22:31:43 +08:00 via Android
    你的爬虫部署在服务器上的话,是走的有线网络,与 5G 无关。再之,一般来讲爬虫应用单次请求的响应体都不大[视频爬虫之类的除外],你的爬虫的 io 等待时间主要取决于对方服务器的响应时间,相比之下带宽就显得不那么重要。
    gamexg
        29
    gamexg  
       2019-06-09 22:45:25 +08:00
    @lang1pal #27 既然用万兆网了,那就上 ssd 吧。
    消费级 970 ssd 的读写速度已经能达到 3G/s 了。
    gamexg
        30
    gamexg  
       2019-06-09 22:48:31 +08:00
    @lang1pal #27 4k 性能记不清了,但是印象也很高。
    kera0a
        31
    kera0a  
       2019-06-09 22:49:32 +08:00 via iPhone   ❤️ 1
    5g 再快也快不过有线啊,咋回事啊
    luozic
        32
    luozic  
       2019-06-09 23:08:25 +08:00 via iPhone
    无线 和你有线的云主机有关系? 有线的 100GE 网卡便宜了?!
    botian
        33
    botian  
       2019-06-09 23:09:45 +08:00 via Android
    怎么不问问,爬虫技术什么时候被法律约束?
    changz
        34
    changz  
       2019-06-09 23:11:22 +08:00
    要明白 5G 只是一种接入网技术而已。
    changz
        35
    changz  
       2019-06-09 23:12:55 +08:00
    5G 的低延迟目前来说只是个伪命题,你并不能忽略网路中间节点的影响。
    pxw2002
        36
    pxw2002  
       2019-06-09 23:15:21 +08:00 via Android
    我感觉我的智商受到了侮辱
    gunjianpan
        37
    gunjianpan  
       2019-06-09 23:50:12 +08:00
    hhh 你爬虫 不就是对人家带宽上限吗 对方服务器还是 1M 带宽你有什么办法
    thua
        38
    thua  
       2019-06-09 23:59:01 +08:00
    5g 的网络,对于百度云的下载速度限制是不起作用的,爬虫也是,都是看服务端响应时间,而不是在互联网上的传输时间。
    WaJueJiPrince
        39
    WaJueJiPrince  
    OP
       2019-06-10 00:05:10 +08:00
    @gunjianpan 对方的宽带就 1M 确实没办法 不知道长远的未来会不会还是 1M
    WaJueJiPrince
        40
    WaJueJiPrince  
    OP
       2019-06-10 00:05:40 +08:00
    @thua 。。。黑的好!!!!!!!
    WaJueJiPrince
        41
    WaJueJiPrince  
    OP
       2019-06-10 00:07:27 +08:00
    @botian 爬虫触犯法律目前已经有一个案例了 盗取别人家的视频获刑 似乎是中国首例 还有一个什么公司 靠采集别人的简历 好像融资 1.5 亿 最后被一锅端 30 多人坐牢了
    cz5424
        42
    cz5424  
       2019-06-10 00:20:13 +08:00 via iPhone
    越快越容易被 block
    FrankHB
        43
    FrankHB  
       2019-06-10 00:25:54 +08:00
    @chinvo
    螳螂会爬
    螳螂是虫
    螳螂也是爬虫
    (论证有力)
    Northxw
        44
    Northxw  
       2019-06-10 01:02:30 +08:00
    (简单论述) IO 密集,多线程,5G,岂不是更加利用 CPU 资源,更加美滋滋?
    Caan07
        45
    Caan07  
       2019-06-10 01:09:03 +08:00   ❤️ 1
    家族群我堂弟说:哇,5G 快来了。5G 速度好快啊。

    我二姑爷说:5G 不用钱么?

    全群安静。
    masker
        46
    masker  
       2019-06-10 01:11:10 +08:00 via Android
    ???网速影响实现代码?
    lostberryzz
        47
    lostberryzz  
       2019-06-10 01:26:15 +08:00
    别问,问就是速度是 5G 最无聊的应用
    binux
        48
    binux  
       2019-06-10 03:05:46 +08:00
    @WaJueJiPrince #10 你写的爬虫框架连 IO 都解决不了?
    zwh2698
        49
    zwh2698  
       2019-06-10 06:27:21 +08:00 via Android
    科普,通信网络是由核心网,接入网,用户设备, 简单说明。接入分有线和无线,核心网 10 多年没有变化了,变化比较多是接入网中的无线部分
    zwh2698
        50
    zwh2698  
       2019-06-10 06:30:58 +08:00 via Android
    所以大家觉得 5G 是通信网络中那部分呢??
    zwh2698
        51
    zwh2698  
       2019-06-10 06:39:15 +08:00 via Android   ❤️ 2
    1.5g 说会出现大量网联设备,这说明没有 5G 的情况也有物联,不是大量对吧?
    2.大量会不会是伪需求?比如汽车连接电饭锅,你在路上的时候可以煮饭?请问锅里米谁洗?水谁放?电谁插?保姆呀,都有保姆,还要这个有用吗?
    3 让子弹飞一会儿。
    wunonglin
        52
    wunonglin  
       2019-06-10 07:56:19 +08:00
    @zwh2698 他们肯定会说 5G 来了肯定就会有具备自动放米、自动洗米功能的电饭煲,而且还能通过大数据精准放置多少米量 emmmmm,你信不信

    我要笑死了哈哈哈哈哈哈哈哈哈
    locoz
        53
    locoz  
       2019-06-10 08:06:13 +08:00 via Android
    这个问题挺有意思的,不过我认为对速度的影响并不大,等下到公司细说一下。
    alamaya
        54
    alamaya  
       2019-06-10 09:07:43 +08:00
    写爬虫不是该跟人家反扒策略斗智斗勇?就现在的带宽你能跑满?
    icharm
        55
    icharm  
       2019-06-10 09:11:02 +08:00
    异步爬虫了解哈?
    zwh2698
        56
    zwh2698  
       2019-06-10 09:17:44 +08:00 via Android
    @wunonglin 其实我不是嘲笑 5G,我只是客观说明,这东西被包装过度,无非有人想要摸鱼,华为的任老大不是也说内部没有外面那么夸大,这是华为任老大说的,有视频的,都不要找我哈。我引用。 回到题主,题主这是有线接入,和 5G 一毛关系都没有。通讯延迟减小只是说明以前无线设备和无线接入这块有改善。和核心网速度一点关系都没,大油管如果很小,分支油管还能上天? 核心网将近 20 年都没变了,什么光纤改善,CPU 提升,内存速度快,理论上只是运营商节约了一点成本,其实也没节省。就像现在运营商都是 nfv,结构,nfv 的目的是为了省钱,但是现在其实比原来黑盒子更多 10-30%, 移动或者电信的朋友出来说说看。
    abcbuzhiming
        57
    abcbuzhiming  
       2019-06-10 09:19:32 +08:00   ❤️ 2
    楼主,你说你是写爬虫的?你难道没有被别人家的反爬虫措施整的欲仙欲死的经历?你居然认为阻碍爬虫的问题是网速和响应时间?你真的是写爬虫的?你不是在逗我?
    lihongjie0209
        58
    lihongjie0209  
       2019-06-10 09:23:25 +08:00
    哪怕没有网速的限制, 你觉得对方的服务器资源可以让你随意占用?
    whwq2012
        59
    whwq2012  
       2019-06-10 09:25:38 +08:00 via Android
    你说 ipv6 能提升爬虫的效率都比说 5g 好
    kisshere
        60
    kisshere  
       2019-06-10 09:26:27 +08:00
    好多写爬虫的还主动降频,就是为了怕对方发现,你这思路清奇,即使对方毫无反爬措施,爬虫的进程数、解析 DOM 速度才是最大瓶颈,网速高有毛用
    lupo
        61
    lupo  
       2019-06-10 09:40:12 +08:00
    @zwh2698 目前有很多项目可能受限于当前的网速发展不起来,如果 5G 发展起来了。这些项目就能搞起来了。这个潜能是无限的,谁也不能承担忽视 5G 而导致的后果,所以美国疯狂打压华为。。。微软很早之前就做智能手机,做平板,但一直没有发展起来,感觉和网络速度有一定的关系。。
    shuizhengqi
        62
    shuizhengqi  
       2019-06-10 09:42:10 +08:00
    程序员的门槛真是越来越低了
    rootww21
        63
    rootww21  
       2019-06-10 09:51:11 +08:00
    所以程序员并不是技术相关的都懂
    就和不是所有的程序员都会修电脑一样
    过分嘲笑就没意思了
    402124773
        64
    402124773  
       2019-06-10 09:59:07 +08:00
    @shuizhengqi
    低的有点可怕了,两个完全没有任何关系的技术,连基本原理都不懂一点的。
    看来有时候,很多人鄙视纯爬虫工程师是有点道理的。
    zephyru
        65
    zephyru  
       2019-06-10 10:01:28 +08:00
    到现在,该回答的都有人回答了.我也不重复了...
    我看到题目的第一反应是在钓鱼...往后面看发现居然是认真的..
    还真别怪一开始几个人冷嘲热讽.不回答问题.也不是你想的太完美了..
    而是你书读太少了..但凡对网络组成有一丝丝的了解也不会问出这种问题...
    soulmine
        66
    soulmine  
       2019-06-10 10:02:25 +08:00
    对速度没有 对数据量有质的改变
    karllynn
        67
    karllynn  
       2019-06-10 10:03:19 +08:00
    楼主你这技术底子也太薄了吧,讨论个啥=。=
    676529483
        68
    676529483  
       2019-06-10 10:04:15 +08:00
    lz 是爬虫新人吧,爬虫难点不在于 IO,写异步的或者线程池都可以缓解,瓶颈在于反爬,甚至需要主动降低爬取频率;再说一般中小企业网站都 4M 带宽出口,你最高也就这速度了
    skSK09
        69
    skSK09  
       2019-06-10 10:04:56 +08:00
    "由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。"
    IO 密集型的操作你可以认为和 GIL 没关系。
    zjyl1994
        70
    zjyl1994  
       2019-06-10 10:05:18 +08:00
    等等,你的爬虫服务器不是放在机房里通过万兆光纤接入的吧?
    难道说你们现在的瓶颈在爬虫手机 4G 速度不够?所以期待 5G 带来质变?
    那这边建议你买个 G 口的 VPS 体验一下,绝对比手机上跑爬虫烧 4G 流量便宜,而且还快
    zephyru
        71
    zephyru  
       2019-06-10 10:05:52 +08:00
    @rootww21
    修电脑和这种基础知识不是一类的...
    修电脑是技能..
    而网络组成是基础知识,但凡是写和网络有关程序的人都会接触到,他还是写爬虫的,这些不懂有些说不过去....
    rootww21
        72
    rootww21  
       2019-06-10 10:10:17 +08:00
    @zephyru 说明初入行业,我一个运维也知道和 5G 没关系,虽然专业是通信
    pkoukk
        73
    pkoukk  
       2019-06-10 10:11:27 +08:00
    你不会在用 4G 流了来爬数据吧???
    5G 再快,最终也得汇到光纤主网上面去
    wunonglin
        74
    wunonglin  
       2019-06-10 10:18:18 +08:00
    @zwh2698 所以说现在都是政治吹捧,但是捧也要有点底线,现在这样好像在看傻子
    unco020511
        75
    unco020511  
       2019-06-10 10:23:28 +08:00
    为什么 5G 会影响服务器?
    dobelee
        76
    dobelee  
       2019-06-10 10:26:26 +08:00 via Android
    现在服务器千兆的大把,加钱也有万兆。
    哦不对,楼主用的是移动网络。
    itskingname
        77
    itskingname  
       2019-06-10 10:30:02 +08:00 via iPhone
    速度从来都不是爬虫最关键的地方。
    jseed
        78
    jseed  
       2019-06-10 10:30:24 +08:00
    5G 到来,会影响我单手开保时捷吗!#手动滑稽
    qinxi
        79
    qinxi  
       2019-06-10 10:49:31 +08:00
    @jseed #78 会啊.毕竟 5G 会带来无人驾驶
    crawl3r
        80
    crawl3r  
       2019-06-10 10:53:37 +08:00
    现在的爬虫瓶颈不就是在反爬对抗么?
    jseed
        81
    jseed  
       2019-06-10 11:09:55 +08:00
    @qinxi 你赢了
    zwh2698
        82
    zwh2698  
       2019-06-10 11:38:20 +08:00 via Android
    @lupo 第一我没说忽略 5G 发展,千万不能曲解,千万!我只是想说 5G 能干啥,估计炒作的人都没想清楚,所以让子弹飞一会儿。第二微软的失败不是因为网络吧。你去找找吴军的分析。
    glfpes
        83
    glfpes  
       2019-06-10 11:47:10 +08:00
    LZ 就像个真信了亩产万斤的农民。
    WaJueJiPrince
        84
    WaJueJiPrince  
    OP
       2019-06-10 11:56:38 +08:00
    @676529483 仔细看看我之前的回复就知道了 我的意思是低延迟 而且你们可能认为有线技术一直是在服务器那端 这辈子都不会改变 我认为的任何事情都会改变
    zwh2698
        85
    zwh2698  
       2019-06-10 11:56:45 +08:00 via Android
    再次强调,5G 网络延迟改善,带宽增加和有线毛关系都没,这个只能提升无线接入到设备之间网络质量。如果要主干网路,除非有什么比光纤更快的。但是目前物理定律是不可能有超过光速的。那么就是光纤优化,让光子在内部尽量减少反射次数,最好做到直接到,这样应该就是理论上的光速了。现在光纤的传输速度小于光速。
    killerv
        86
    killerv  
       2019-06-10 13:17:37 +08:00   ❤️ 1
    我怀疑楼主根本没写过爬虫
    jeasonzuo
        87
    jeasonzuo  
       2019-06-10 13:31:12 +08:00   ❤️ 1
    我怀疑楼主根本不懂网络
    sobigfish
        88
    sobigfish  
       2019-06-10 14:01:12 +08:00   ❤️ 1
    我怀疑楼主根本不懂木桶
    msg7086
        89
    msg7086  
       2019-06-10 14:40:35 +08:00
    一秒钟就能下一部电影的移动网络价格,你拿去买固定有线网络,可以买到一秒钟就能下十部电影的。

    我们假设你跑出了 5G 应有的带宽的十分之一,也就是 100mbps,一个月下来跑了 32.4TB ,那 32.4TB 的手机流量是多少钱呢?好像有点超出我的知识量了。如果我们按照现在一元一 GB 的价格来算的话,是 32400 元。

    那么每月 32400 元能申请到什么样的有线网络呢?

    我陷入了沉思。
    gscoder
        90
    gscoder  
       2019-06-10 18:15:06 +08:00
    5G 是移动网络,和固定网络木有关系,除非你的爬虫是跑在手机上
    locoz
        91
    locoz  
       2019-06-11 23:53:26 +08:00
    @locoz #53 补一下昨天说的这个,有兴趣的可以了解一下
    https://www.v2ex.com/t/572939
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2906 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 03:27 · PVG 11:27 · LAX 19:27 · JFK 22:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.