V2EX › toono 的所有回复 › 第 7 页 / 共 16 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 16

❮

❯

2017-11-06 12:39:25 +08:00

回复了 wugiro 创建的主题 › 程序员 › 学生党，想要台新电脑用来敲代码，有推荐吗

补充一下；

树莓派 + 国产小显示器 + 电瓶车 + 鼠标键盘；

优势：便携，功能全面强大，性价比强悍。

2017-11-06 12:37:02 +08:00

回复了 wugiro 创建的主题 › 程序员 › 学生党，想要台新电脑用来敲代码，有推荐吗

树莓派 + 国产显示器～～～🌚

2017-10-31 10:40:21 +08:00

回复了 helloword001 创建的主题 › 程序员 › 程序员们都玩王者荣耀吗

SWITCH!

2017-10-31 09:50:49 +08:00

回复了 banxi1988 创建的主题 › iDev › Swift 开发效率高是高,可是编译速度慢啊

@webfrogs

sleep(10) --> sleep(5)

优化 50%完成✅

2017-10-31 09:23:03 +08:00

回复了 banxi1988 创建的主题 › iDev › Swift 开发效率高是高,可是编译速度慢啊

楼主用 swift 写服务端？

2017-10-31 08:37:57 +08:00

回复了 mdzz 创建的主题 › 程序员 › 听说你们把煎蛋爬趴下了，于是我也爬了一下发现没多大数据量，就很不理解

@cyn 原以为“煎蛋”是京东，谁知道，煎蛋就是煎蛋网

2017-10-26 12:02:34 +08:00

回复了 Terry05 创建的主题 › 程序员 › 还有人在玩树霉派么，现在还有什么实用的玩法？

@vtwoextb 我不太清楚你的远端服务器是做什么用的。我猜测是为了存储查看商品的对比结果。

如果是有空闲的远端服务器的话你的这种方案挺好的。

假如是特意开个远端服务器做这个事情的话可能有点浪费，我觉得可以用 hubot，它可以和你的 IM 类产品保持通信。假如商品价格达到了阈值，那么 hubot 就将爬虫得到的数据发到你的 IM 中。

另外请教一下你爬价格的细节，就是京东上面不同店铺同一商品价格的对比吗？商品型号的选择呢

2017-10-26 08:42:18 +08:00

回复了 faywong8888 创建的主题 › 程序员 › 小程序轻松互转，这样操作就行

@takeoffyoung 233333333

2017-10-26 08:36:54 +08:00

回复了 war1644 创建的主题 › 全球工单系统 › 头条的同学，有个你们的程序问题请教

直接问头条 API 来得痛快😂😂😂

2017-10-25 16:48:22 +08:00

回复了 sniperhgy 创建的主题 › Python › 用 Python 写爬虫，请各位坛友推荐一个免费好用的验证码识别方法或者平台

安装 tesseract，然后 Python 调用。

觉得不准确的话，自己写配置去训练。

2017-10-25 16:47:04 +08:00

回复了 messi1991 创建的主题 › Node.js › node 中使用 tesseract.js 会报错

js 这个库需要连接语言库之类的资源。

我还是建议你这种解析图片的工作在后台服务做吧，我用过它的 Python 版本，应该也会有 Java 版本吧。

2017-10-25 16:42:23 +08:00

回复了 guke01857 创建的主题 › Android › 收一套 APP 直播系统源码！！！！

我们公司就有。这一套东西可是业务的核心技术，怎么可能会随便给

2017-09-30 09:16:04 +08:00

回复了 pockry 创建的主题 › 问与答 › 苹果品控真的不行了，同事买 MBP2017 一个月，自己突然内屏碎掉，官方维修告知要 4000 元

@pockry 指定维修点就是加盟赚钱的。同事系统出问题了想去重装系统，一问要服务费三四百。我敢说天才吧肯定是一毛钱不用就帮你装好系统的。

还是劝妹子同事预约去天才吧看吧，至少不会被狠宰。天才吧好像只认电脑，不怎么关心你是国行还是港货。

2017-09-30 08:55:53 +08:00

回复了 Technetiumer 创建的主题 › 程序员 › 为什么经常见到从 sublime 转到 vscode 的，而不是转到 atom？

@R18 估计是插件太多了

2017-09-30 08:54:38 +08:00

回复了 w2GvCF 创建的主题 › 程序员 › 多少人节假日加班拿到过 3 倍工资？

@zhlssg 才 99，正常普通程序员都两三百一天的工资吧。。

2017-09-25 09:18:38 +08:00

回复了 jzy 创建的主题 › 全球工单系统 › 滴滴出行，你们的广告推送简直是丧心病狂啊

所以，还是禁止通知吧

2017-09-25 09:16:30 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@saximi topic-content 是在帖子里面的，https: //www.douban.com/group/explore 是帖子列表。

2017-09-25 09:14:15 +08:00

回复了 saximi 创建的主题 › Python › 请推荐关于 Scrapy 包用法的中文版学习资料

@saximi

1. 在我这 next_page 为" ?start=30 "，并不是完整的网址，所以拼接起来的下一页 URL 是没问题的。
![]( https://ws4.sinaimg.cn/large/006tNc79gy1fjvjehveqnj30kq02sdgb.jpg)

2. 这个类继承了一个父类 ImagesPipeline，我只需要重载其中的两个处理方法就好了。

3. remove_tags 不是 python 标准库里的，而是 scrapy 的。使用方法可以查看它的源码定义，有相关的使用文档注释。

2017-09-22 09:46:44 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@saximi 我运行了一下豆瓣爬虫，没毛病，而且我去查看了有 topic-content class。关于 cookie 并不是需要登录用户才会有的。

关于 signal 你可以参看文档的 signal 一章及 http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/extensions.html?highlight=signals.connect

signal 我理解还是不够深入，所以先不多解释。

2017-09-22 09:21:02 +08:00

回复了 saximi 创建的主题 › Python › 请推荐关于 Scrapy 包用法的中文版学习资料

@saximi

1. 这是看需求的，__init__方法的意义就是在于初始化。MyAgentMiddleware 中的__init__编写的意义在于记录我的 user_agent 的数目，方便后面的逻辑中使用 random 的随机方法。

2. 哈哈，这个是手误，原本打算用类似于 pipelines.py 中 MongoDBPipeline 的类初始化方法的，但是觉得直接写__init__方法更简便。

3. 我这里没有 return 语句实际上就是 return 了 None。

引用：如果其返回 None，Scrapy 将继续处理该 request，执行其他的中间件的相应方法，直到合适的下载器处理函数(download handler)被调用，该 request 被执行(其 response 被下载)。

也就是我返回 None 的话，会继续按照 settings.py 的配置按顺序执行其他 Downloader Middleware。假如返回了 Response 对象，则会直接到达 spider 中 call_back 对应的方法进行返回的解析了。

4. 会有顺序，顺序就是 settings.py 中的优先级(数字)。为了爬虫群功能清晰，所以不同作用的功能分成不同的 Middleware 了。有的时候某个 Middleware 是某个爬虫特异需要的，那样子就可以做爬虫内配置去启用或者关闭 Middleware。有点拼乐高的意思。

像你说的合在一个类并非不行，只是不好。

5. 我认为开始爬虫的时候 spider 就是被开启的。你可以在 open_spider 方法调试输出，被调用的次数并不多。另外可以参考一下核心 API 状态收集器(Stats Collector) API。

1 2 3 4 5 6 7 8 9 10 ... 16

❮

❯