V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  brucedone  ›  全部回复第 9 页 / 共 11 页
回复总数  215
1  2  3  4  5  6  7  8  9  10 ... 11  
2017-08-15 10:47:12 +08:00
回复了 akmonde 创建的主题 Python scrapy 操作 make_requests_from_url 遇到的坑
1.crawl spider 是和 rule 搭配使用的
2.使用使用一般的 spider 就可以了
3.不要自己写一些魔性的方法和方式,该 yield request 就弄 request,该 yield item 就 yield item

想学 scrapy,博客参考:
http://brucedone.com/archives/771

代码参考:
https://github.com/BruceDone/scrapy_demo
2017-08-01 14:20:46 +08:00
回复了 rogwan 创建的主题 Python yield from 有什么最佳的使用场景吗?
@junnplus 《流畅的 python 》,好书啊,例子也写的够详细
2017-08-01 12:00:53 +08:00
回复了 rogwan 创建的主题 Python yield from 有什么最佳的使用场景吗?
转移控制权给子生成器,简单来说是打开一个双向通首,把最外层的调用方和最内层的子生器连接起来,这样二者就可以直接发送和产出值,使用 yield from 的块可以称为委派生成器
2017-07-31 17:24:23 +08:00
回复了 slideclick 创建的主题 Python 轻量级 py 编辑器求推荐
vscode
如果只是为了押韵,就没什么卵用了。
2017-06-30 09:56:47 +08:00
回复了 xuezher 创建的主题 程序员 各位怎么看待易语言和按键精灵脚本
语言和工具出现是为了解决特定的问题的,如果他解决了问题,一般不用管不管 low 不 low,能做事儿不行吗,但如果你只用固定的方式而不思进取,那才算是 low
2017-06-28 14:23:20 +08:00
回复了 oneisall 创建的主题 Linux 新版小米笔记本 13.3 i5 7200u 收到了
家里放了个小米 13.3g 一代的本,ubuntu 玩的不要太爽,续航相当不错,主要是轻,处理一些轻量级的活儿。
2017-06-27 10:39:50 +08:00
回复了 chxj1992 创建的主题 Python 比较简易的用 Keras 搭建卷积神经网络模型识别验证码
如果是用的生成库,基本没有什么意义,因为你的生成库的数据是无限的,只要给时间,你跑到 99.999999 都有可能,不过,这有用吗?不同的网站,不同的字体,不同的大小,颜色都不同,还有躁点啥的,你实际应用之后你就知道了。
简历? git?技术水平?博客? 你还真是就是差一个投资人的节奏了。
2017-06-07 10:20:52 +08:00
回复了 hellogbk 创建的主题 程序员 想买个 iPad 但是却真的想不到我能用它做什么
你别指望有大用途,顶多消磨时间。
2017-06-06 14:13:02 +08:00
回复了 mzmxcvbn 创建的主题 Flask flask 应该怎么保护后端 api 接口,为接口增加权限机制?
apigateway 啊,保护 api,从我做起,写一个网关系统,有认证机制
datagrip + 1,用起来爽爽的
2017-05-07 21:44:30 +08:00
回复了 morefreeze 创建的主题 Python airflow 简明指南
关于 airflow 的国内的资料相对少,也用的人少。
@windfarer 坑在哪?内存还是什么?我自己的博客就是 docker-compose 一套,跑的满正常的啊
很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。
如果可以,打包成 docker 吧, win 上不是也可以用 docker 了?
2017-04-20 11:20:57 +08:00
回复了 Miksztowi 创建的主题 Python 大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象?
@Miksztowi 当然可以啦,不过呢,中间一般在经历 label 的过程。
2017-04-19 11:57:57 +08:00
回复了 Miksztowi 创建的主题 Python 大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象?
===足够的吸引力===
拿别人的代码跑一下,就可以拿到种子,妹子图,或者生成标准的 excel ,你说对于一个从来没有接触过编程语言的人,够不够吸引力呢?我想大多数刚接触语言的人应该都不会拒绝吧,特别是非科班出身的人

===数据时代的兴起===
目前的噱头,都天天喊着大数据,有些公司或者企业,本身不生产数据,那怎么办呢?买数据,或者爬数据,这点对于“爬虫”这个行业的兴起是密不可分的

===入门容易深入难===
懂一般的 http 请求,了解 xpath ,正则,玩一两个框架,就可以定制一些数据了,那真这么简单吗?当然不是,你玩爬虫你得知道别人反爬虫的常用技巧吧, js 渲染, api 加密,封 IP ,出验证码,还有你的数据层面的存储,清洗,爬虫的整体执行效率,每一个细节都可以延伸的技术细节,所以你入门是容易的,但是想要精进,是需要花时间的

===乱象===
现在网上对于爬虫的需求是饱和或者上升的,但是舆论风气很不好,贴一两段代码,然后取个什么标题,他们从来不会跟你讲 html dom 元素, javascript ,http 请求这些基本的理论知识,更别谈数据库,语言的基础知识了,只要你会用,这点我看来不怎么好
1  2  3  4  5  6  7  8  9  10 ... 11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5577 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 07:52 · PVG 15:52 · LAX 23:52 · JFK 02:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.