V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  toono  ›  全部回复第 7 页 / 共 16 页
回复总数  305
1  2  3  4  5  6  7  8  9  10 ... 16  
2017-11-06 12:39:25 +08:00
回复了 wugiro 创建的主题 程序员 学生党,想要台新电脑用来敲代码,有推荐吗
补充一下;

树莓派 + 国产小显示器 + 电瓶车 + 鼠标键盘;

优势:便携,功能全面强大,性价比强悍。
2017-11-06 12:37:02 +08:00
回复了 wugiro 创建的主题 程序员 学生党,想要台新电脑用来敲代码,有推荐吗
树莓派 + 国产显示器 ~~~🌚
2017-10-31 10:40:21 +08:00
回复了 helloword001 创建的主题 程序员 程序员们都玩王者荣耀吗
SWITCH!
2017-10-31 09:50:49 +08:00
回复了 banxi1988 创建的主题 iDev Swift 开发效率高是高,可是编译速度慢啊
@webfrogs

sleep(10) --> sleep(5)

优化 50%完成✅
2017-10-31 09:23:03 +08:00
回复了 banxi1988 创建的主题 iDev Swift 开发效率高是高,可是编译速度慢啊
楼主用 swift 写服务端?
@cyn 原以为“煎蛋”是京东,谁知道,煎蛋就是煎蛋网
2017-10-26 12:02:34 +08:00
回复了 Terry05 创建的主题 程序员 还有人在玩树霉派么,现在还有什么实用的玩法?
@vtwoextb 我不太清楚你的远端服务器是做什么用的。我猜测是为了存储查看商品的对比结果。

如果是有空闲的远端服务器的话你的这种方案挺好的。

假如是特意开个远端服务器做这个事情的话可能有点浪费,我觉得可以用 hubot,它可以和你的 IM 类产品保持通信。假如商品价格达到了阈值,那么 hubot 就将爬虫得到的数据发到你的 IM 中。


另外请教一下你爬价格的细节,就是京东上面不同店铺同一商品价格的对比吗?商品型号的选择呢
2017-10-26 08:42:18 +08:00
回复了 faywong8888 创建的主题 程序员 小程序轻松互转,这样操作就行
@takeoffyoung 233333333
2017-10-26 08:36:54 +08:00
回复了 war1644 创建的主题 全球工单系统 头条的同学,有个你们的程序问题请教
直接问头条 API 来得痛快😂😂😂
安装 tesseract,然后 Python 调用。

觉得不准确的话,自己写配置去训练。
2017-10-25 16:47:04 +08:00
回复了 messi1991 创建的主题 Node.js node 中使用 tesseract.js 会报错
js 这个库需要连接语言库之类的资源。

我还是建议你这种解析图片的工作在后台服务做吧,我用过它的 Python 版本,应该也会有 Java 版本吧。
2017-10-25 16:42:23 +08:00
回复了 guke01857 创建的主题 Android 收一套 APP 直播系统源码!!!!
我们公司就有。这一套东西可是业务的核心技术,怎么可能会随便给
@pockry 指定维修点就是加盟赚钱的。同事系统出问题了想去重装系统,一问要服务费三四百。我敢说天才吧肯定是一毛钱不用就帮你装好系统的。

还是劝妹子同事预约去天才吧看吧,至少不会被狠宰。天才吧好像只认电脑,不怎么关心你是国行还是港货。
@R18 估计是插件太多了
2017-09-30 08:54:38 +08:00
回复了 w2GvCF 创建的主题 程序员 多少人节假日加班拿到过 3 倍工资?
@zhlssg 才 99,正常普通程序员都两三百一天的工资吧。。
2017-09-25 09:18:38 +08:00
回复了 jzy 创建的主题 全球工单系统 滴滴出行,你们的广告推送简直是丧心病狂啊
所以,还是禁止通知吧
2017-09-25 09:16:30 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@saximi topic-content 是在帖子里面的,https: //www.douban.com/group/explore 是帖子列表。
2017-09-25 09:14:15 +08:00
回复了 saximi 创建的主题 Python 请推荐关于 Scrapy 包用法的中文版学习资料
@saximi

1. 在我这 next_page 为" ?start=30 ",并不是完整的网址,所以拼接起来的下一页 URL 是没问题的。
![]( https://ws4.sinaimg.cn/large/006tNc79gy1fjvjehveqnj30kq02sdgb.jpg)

2. 这个类继承了一个父类 ImagesPipeline,我只需要重载其中的两个处理方法就好了。

3. remove_tags 不是 python 标准库里的,而是 scrapy 的。使用方法可以查看它的源码定义,有相关的使用文档注释。
2017-09-22 09:46:44 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@saximi 我运行了一下豆瓣爬虫,没毛病,而且我去查看了有 topic-content class。关于 cookie 并不是需要登录用户才会有的。

关于 signal 你可以参看文档的 signal 一章及 http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/extensions.html?highlight=signals.connect

signal 我理解还是不够深入,所以先不多解释。
2017-09-22 09:21:02 +08:00
回复了 saximi 创建的主题 Python 请推荐关于 Scrapy 包用法的中文版学习资料
@saximi

1. 这是看需求的,__init__方法的意义就是在于初始化。MyAgentMiddleware 中的__init__编写的意义在于记录我的 user_agent 的数目,方便后面的逻辑中使用 random 的随机方法。

2. 哈哈,这个是手误,原本打算用类似于 pipelines.py 中 MongoDBPipeline 的类初始化方法的,但是觉得直接写__init__方法更简便。

3. 我这里没有 return 语句实际上就是 return 了 None。

引用:如果其返回 None,Scrapy 将继续处理该 request,执行其他的中间件的相应方法,直到合适的下载器处理函数(download handler)被调用, 该 request 被执行(其 response 被下载)。

也就是我返回 None 的话,会继续按照 settings.py 的配置按顺序执行其他 Downloader Middleware。假如返回了 Response 对象,则会直接到达 spider 中 call_back 对应的方法进行返回的解析了。

4. 会有顺序,顺序就是 settings.py 中的优先级(数字)。为了爬虫群功能清晰,所以不同作用的功能分成不同的 Middleware 了。有的时候某个 Middleware 是某个爬虫特异需要的,那样子就可以做爬虫内配置去启用或者关闭 Middleware。有点拼乐高的意思。

像你说的合在一个类并非不行,只是不好。

5. 我认为开始爬虫的时候 spider 就是被开启的。你可以在 open_spider 方法调试输出,被调用的次数并不多。另外可以参考一下核心 API 状态收集器(Stats Collector) API。
1  2  3  4  5  6  7  8  9  10 ... 16  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 19:35 · PVG 03:35 · LAX 11:35 · JFK 14:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.