郁闷，折腾了一周的爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 373 天前的主题，其中的信息可能已经有所发展或是发生改变。

辛辛苦苦解码 js ，绕开反爬机制，结果他认证的时候加了个手机实名，我艸。

郁闷

解码

实名

28 条回复 • 2024-08-31 22:02:06 +08:00

ccloving

2024-08-26 17:51:17 +08:00

用影刀

littleG

2024-08-26 17:54:14 +08:00

爬虫写的好，牢饭少不了。

4BVL25L90W260T9U

2024-08-26 17:57:01 +08:00

国内的网站还是别搞了，现在已经完全没有任何法治可言了，惹急了人家给上边塞点钱，你这就是破坏计算机信息系统安全罪。

guoguobaba

2024-08-26 18:00:34 +08:00

@ospider 我做的是 rpa ，客户自己存用户名密码啊

4BVL25L90W260T9U

2024-08-26 18:02:40 +08:00

@guoguobaba #4 so ？我的意思就是现在你讲道理已经讲不明白了……

privateproxies

2024-08-26 18:03:54 +08:00

哈哈 1 千头草泥马汹涌而来

julyclyde

2024-08-26 18:04:10 +08:00

@ospider 你觉得“不想被爬”是违法的吗？

yanw

2024-08-26 18:05:12 +08:00

@guoguobaba 可以了解下相关判例

macaodoll

2024-08-26 19:37:39 +08:00 via iPhone

手机号注册吗？好多家接码平台，随便搞的

yb2313

2024-08-26 19:44:36 +08:00

人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向

happybabys

2024-08-26 19:46:53 +08:00

高端的食材只需要简单的烹饪

somebody1

2024-08-26 20:33:44 +08:00

到解码 js 的时候就该用 playwright ，selenium 这种快速搞定，自己的时间比机器的资源值钱

guoguobaba

2024-08-26 20:47:02 +08:00 via iPhone

@somebody1 selenium 也需要解 js 啊，瑞数了解一下

somebody1

2024-08-26 21:45:14 +08:00

@guoguobaba #13
不用你解，直接从页面抓取结果

xinghusp

2024-08-26 22:33:59 +08:00

@guoguobaba 兄弟别搞了。我正在经历这破事，甚至于对方公司都没有报案也不愿意配合作证，这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用，也无反爬机制。

fbichijing

2024-08-26 23:53:48 +08:00

@yb2313 我倒觉得适度的爬虫是很有存在的必要性的，至少对个人来说是这样，可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它，客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。

jianchang512

2024-08-27 00:28:08 +08:00

国内即便你遵守 robots.txt, 也一样可能吃牢饭

NoOneNoBody

2024-08-27 00:38:50 +08:00

最近在重拾前端做自动化，一些网页或网站打开就自动提取信息
不过倒不是爬大量页面，就是打开哪个是哪个，减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行，单机单 ip 遇到 5 秒反爬确实搞不了，我以前都是爬外站多，没什么线下问题，最多把我“升级”称为“中国黑客”，笑

zeusho871

2024-08-27 01:04:42 +08:00

不要实名的话这个框架好一点 drissionpage
playwright selenium 有特征不用去特征版本的就会被检测

WeaPoon

2024-08-27 01:53:25 +08:00

@xinghusp #15 哎。

llbqwhtxi

2024-08-27 02:11:27 +08:00

之前用 selenium 玩页游来的,最近一打开就被 403,要弃坑了(主要是不会"反爬")

incubus

2024-08-27 08:16:55 +08:00

@xinghusp 细说

Daybyedream

2024-08-27 08:50:38 +08:00

控制频率= = 不公开是最后的温柔

linxb

2024-08-27 09:06:43 +08:00

@ospider #3 啊，这言论是什么立场，合着放开让你随便爬才是法治是吧

guoguobaba

2024-08-27 10:02:04 +08:00

@somebody1 我指的破解 js ，是屏蔽他对 selenium 之类自动化工具的检测。你去看看瑞数是怎么干的吧。

naythefirst01

2024-08-27 10:57:30 +08:00

想起之前一些 app 的反爬就是强制登录。。。简单有效

xinghusp

2024-08-27 19:06:12 +08:00

@incubus 改天我写个帖子详细的介绍，这事情一两句说不清。。反正就是爬虫的入罪门槛非常低，只要：1.你没明确得到对方同意（签协议的那种同意，公共网页也不可以）； 2.你尝试绕过了任一反爬措施（包括但不限于验证码、代理、JS 混淆等等）； 3 、获利大于 5000 元。达成上述三个条件，就可以追究刑事责任了，哪怕对方不报警。

duansindo

2024-08-31 22:02:06 +08:00

我这边需要抓取外国网站的数据，能做的联系我 https://t.me/githubaa