V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Hlianbobo  ›  全部回复第 7 页 / 共 7 页
回复总数  128
1  2  3  4  5  6  7  
2020-08-12 20:43:46 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
@jones2000 谢谢,如果我要抓社交媒体留言和评论。目前有这方面的靠谱数据商推荐么?
@fengjianxinghun 谢谢回复。以 pyecharts 以为例。echarts 好像是 java 写的。目的仅仅是想在 python 开发中画个图。结果要去读 java 源码。这相当于把小问题搞成了一个大问题。要开始学一门新语言。感觉投入产出比不是很划算。当然,要是源码都掌握了。那以后还可以自己改源码。我本来就想学个汽车驾驶。结果学成了汽车修理。这是一条好路么?

或者我对看源码理解有误?
2020-08-12 13:59:43 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
@locoz 谢谢高质量的详细回复。受益匪浅。小白看后生出更多疑问:
严格来说,只要你舍得花钱,...........上都有现成的解决方案。
------------逆向的意思是特指那些没有 web 页面,只有 app 服务的(例如拼多多)的信息抓取么?以下是我的揣测:因为都是 app 内展现数据,所以信息都是加密的,只能在他们自己的 app 内解析展现。就算你能抓取他传送的信息,但是无法解密也无法利用这些信息。逆向的意思就是获取他们的解密算法和解析算法。是么?



通常来说,除去需要逆向的部分以外,其他所谓的解析、分布式、监控、报警、部署之类的一堆东西,通通都有现成的方案,并且也有很多相关的工具把这些东西都给集成好了。即使没有,你也可以直接拿大数据、后端、前端、安全领域的一些东西来用,反正都是通用的。
------------请问有业内公认好用的轮子推荐么?就是直接在 python 内分别 import 以后就直接调用他的函数就可以完美的克服以上障碍。而且用的人比较多。使用中遇到问题,书籍和网上的回复比较丰富的。主要担心理论上有轮子,实际用起来一言难尽.........
-----------“你也可以直接拿大数据、后端、前端、安全领域的一些东西来用,反正都是通用的。”大数据,后端前端的东西和爬数据有什么联系?怎么拿来使用。请问有这方面的文章和书推荐么?就是怎么利用这些非爬虫工具来克服爬取数据过程中遇到的障碍。



而逆向部分,如果你舍得花钱,那直接去调用别人接口解决加密参数生成、验证码识别之类的分分钟就能解决;但如果你不舍得花钱,那不同平台的反逆向手段并不一定相同。
比如瑞数这种,会有专门的人为特定网站每天更新加密参数的生成规律、策略等,这种情况没有通用的轮子,别人有轮子也不会放出来给你用,只能自己造轮子去解决初次分析和后续的自动更新问题。
----------------请问有做社交媒体逆向比较好的服务商推荐么?比如针对大众点评,美团,微博,小红书.......
2020-08-12 13:47:10 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
@Myprincess 不知道怎么给你的问题点赞。所以只好通过回复赞赏
2020-08-12 13:44:55 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
@jones2000 谢谢回复。你所提到的云抓服务成熟度高么?以下问题:1 、html 信息不完整,关键信息在加密了。不在前端直接展示。2 、发现你在爬信息,故意给你返回垃圾信息。诸如此来不一而足。以上属于云抓服务解决问题的范畴么?如果属于,目前云抓服务在克服以上问题都做的很完善么?有没有优质服务商推荐呢?
2020-08-12 13:30:09 +08:00
回复了 Hlianbobo 创建的主题 Python Python 可视化工具库哪款最好用?哪款最不好用?
@volvo007 谢谢回复。关于“交互不是不可以做,但是交互和动画这一块写起来会麻烦些”-------听说 bokeh 是基于 matplotlib 开发的。也支持交互。你所说的写起来会麻烦些。是不是说的 bokeh 不好用?

另外:pyecharts 的官网看了看,没有明显的痕迹看出来这是百度官方的项目。如果是私人维护的,会不会有一天 echarts 还在但是 pyecharts 停更了?

还有评论中提到文档支持的问题。我这方面认知很有限。特此向你请教。很多人都说看书不如看官方文档。但是我看了 pyecharts 的官方文档。示例代码大段大段的都没有注释。尤其是快速入门 示例代码中的一些函数(这些函数因该是 pyecharts 最常用的函数了)没有注释。你也看不出这些函数的作用是什么?不知道是我 python 的知识太薄弱。还是 pyecharts 的文档做的不好。

你所谓的围挡支持好或不好,主要的衡量依据是什么?可否分享一下?
2020-08-11 19:51:56 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
@musi 国内有爬社交网络被起诉的案例么?如果没有黑进对方系统。对方的数据都是网上公开人人可见的数据。那么获取 html 代码解析里面的数据,具体触犯什么法律了? 是否有这方面的介绍?
2020-08-11 19:49:57 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
@renmu123 例如克服常见反爬壁垒(封 IP,返回垃圾信息,二维码验证……)现在都有轮子完美的解决了? python 开发者只需要按部就班调用轮子就可以克服以上障碍了?
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   871 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 19:16 · PVG 03:16 · LAX 12:16 · JFK 15:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.