V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ClericPy  ›  全部回复第 108 页 / 共 133 页
回复总数  2657
1 ... 104  105  106  107  108  109  110  111  112  113 ... 133  
2019-10-23 16:11:19 +08:00
回复了 Ygmxy 创建的主题 Python Python 零基础应该怎么学?
@Ygmxy 微软家出了一个, 不过是英文的 https://cloudblogs.microsoft.com/opensource/2019/09/19/new-python-training-video-series-beginners/
此外视频类的我看过不多, 也都不能保证质量, 就不推荐了
2019-10-23 16:00:07 +08:00
回复了 Les1ie 创建的主题 分享发现 chrome78 的标签页悬浮窗
预览图这功能似乎和 vivaldi 里一样? 我倒是想开, 不知道费资源多不多
2019-10-23 15:56:02 +08:00
回复了 Ygmxy 创建的主题 Python Python 零基础应该怎么学?
https://www.v2ex.com/t/611323
日经, 刚回答过
2019-10-23 15:40:06 +08:00
回复了 Africa 创建的主题 设计 请问这个博客的字体是什么?
https://github.com/joway/hugo-theme-yinyang/tree/master/static/fonts
看到了, 字体内置了, 搜了下没发现付费要求, 应该是免费字体吧, 不过试着给 chrome 套上, 中文真难看... 不如他网站好看呢
2019-10-23 15:32:56 +08:00
回复了 Africa 创建的主题 设计 请问这个博客的字体是什么?
@CEBBCAT 原来如此, 我也想用这个了, 极简就是美, 字体是里面自带的? Hugo 大法好啊
2019-10-23 15:28:10 +08:00
回复了 pinews 创建的主题 云计算 中国微软云打电话了
人打电话来找你要钱, 你怎么还不好意思了, 是不是想多了
答案明摆着了, 现在也不知道还有没有复读
国情就是: 没本事的人, 一考定终身, 有资本的人, 不考也能混. 家里有资本的话, 外国大学有的是名字好听的, 平民子弟的出路, 如果不是被历史选中那些极个别人, 就只有高考一条路
2019-10-23 15:17:50 +08:00
回复了 rabbbit 创建的主题 问与答 跑还是忍?
有个说法不知真假, 显意识来自左脑,运算速度慢,靠逻辑思维;潜意识,也就是右脑的运算速度非常快,我们甚至无法察觉

所以人们在做选择时候的犹豫, 不是因为没有做出选择, 而是潜意识已经给出了选择, 但由于显意识计算太慢, 无法证明这个选择的正确性

跑到论坛来问也是想要把单机计算改为云计算, 希望大家来帮你证明这个命题

所以问题来了, 你以为 V2 上的会像某乎一样给你带几十个参考文献, 下飞机不先回家先回答你问题吗? 这里都是来划水的, 很多时候故意和楼主唱反调都大有人在

一句话总结: 趁着年轻不但不要怕犯错, 还应该多多去试错, 年轻是资本, 如果不搏一把, 年纪大了以后空余恨
2019-10-23 15:11:46 +08:00
回复了 zackary 创建的主题 Python flask 实现 web 页面展示异步任务的执行过程
以前挂在 supervisor 上的时候, 默认的 WEB UI 那个用 Unix socket 实现的倒是可以看, 中文友好问题得自己配置点东西
后来挂在 systemd 上以后, 用 Cockpit 看部分日志, 不过和你说的不太一样
然后工作时候是托管在阿里云日志里了... 也不是你想要的...

总而言之, Google 搜关键词吧: Python realtime log web ui
2019-10-23 15:05:29 +08:00
回复了 Achilless 创建的主题 Python 关于 py 的线程池,并发请求接口
requests 只是让代码写起来快, 跑起来想快还是得考虑其他的, 比如用 gevent 代替 threading, 比如用 aiohttp 代替 requests, aiohttp 的 qps 不开 uvloop 的情况下是 requests + threading 的三倍多, 虽然 golang 原生 net/http 是 requests 十几倍...

这个年代了, 协程的 CPU 利用率高, 状态切换开销小, 不用考虑并发限制(也可以手动干预限制), 很少考虑多线程竞态的锁关系, 学点也不吃亏
2019-10-23 15:02:01 +08:00
回复了 Achilless 创建的主题 Python 关于 py 的线程池,并发请求接口
class ThreadPoolExecutor(_base.Executor):

# Used to assign unique thread names when thread_name_prefix is not supplied.
_counter = itertools.count().__next__

def __init__(self, max_workers=None, thread_name_prefix='',
initializer=None, initargs=()):
"""Initializes a new ThreadPoolExecutor instance.

Args:
max_workers: The maximum number of threads that can be used to
execute the given calls.
thread_name_prefix: An optional name prefix to give our threads.
initializer: An callable used to initialize worker threads.
initargs: A tuple of arguments to pass to the initializer.
"""
if max_workers is None:
# Use this number because ThreadPoolExecutor is often
# used to overlap I/O instead of CPU work.
max_workers = (os.cpu_count() or 1) * 5


这里源码里都写了建议线程池大小了

对 Python 来说, 多线程并不会利用多核, 所以一堆线程是靠系统的不断切换来确定线程完成状态的, 切换的多了自然开销就大了, 性能损失也就大了

多进程也是一个道理, 你就俩核心的话, 不断切换来切换去, 那 CPU 大部分时间都在切换状态上, 根本没时间干活, 也会变慢

权威一点的搜 Google , 一个意思

https://www.google.com.hk/search?q=Python+best+thread+pool+size

https://stackoverflow.com/questions/42541893/maximum-pool-size-when-using-threadpool-python
之前试过不到期退租, 违约金是挺高, 管家直接建议我转租, 最后一分钱没多花...
2019-10-23 11:23:19 +08:00
回复了 Africa 创建的主题 设计 请问这个博客的字体是什么?
本来以为是钓鱼, 点进去发现, 我近视眼是不是好了...
特地下了个插件看了下

font-family (stack):
Arvo, "Helvetica Neue", Helvetica, "Nimbus Sans L", Arial, "Liberation Sans", "PingFang SC", "Hiragino Sans GB", "Noto Sans CJK SC", "Source Han Sans SC", "Source Han Sans CN", "Microsoft YaHei", "Wenquanyi Micro Hei", "WenQuanYi Zen Hei", "ST Heiti", SimHei, "WenQuanYi Zen Hei Sharp", sans-serif
Font being rendered:
Arvo
72.7%
Microsoft YaHei
27.3%
2019-10-23 10:47:01 +08:00
回复了 redam 创建的主题 问与答 那些搞爬虫的调用别人的 API 或搜索结果违法吗
有那么几种数据碰了就犯法, 用户数据(不管是否隐私), 收费 /私有数据, 逆向客户端
2019-10-22 23:57:10 +08:00
回复了 xiaoming1992 创建的主题 程序员 买电脑要等双十一吗?
买笔记本双十一比平时活动一般会便宜两百, 不过我说的是我以前买的那俩七八千的, 再贵点的可能还会便宜多点

至于买散件, 你要每个都去比价? 这就更好估算了, 看看你花一两个小时比价值不值这两百就好了
@uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
2019-10-22 21:06:02 +08:00
回复了 yixiugegegege 创建的主题 Python 求教,公司要重新做爬虫架构
聚焦爬虫常见的组件就是下载器, 解析器, 存储器
此外还得考虑调度器, 代理池, 日志系统那些
避免重复数据和压力过大, 可以在 解析器-存储器 以及 调度器-下载器 之间加上消息队列服务. 以上 4 或 5 个部件统一以后, 拆起来就容易了. 必要时候下载器和解析器之间也可以缓存原始 Response
代理池得维护一份, 毕竟有些不存在的网站也要采集, 还得避免限频反爬
日志系统做好分析, 方便报警和调试

爬虫多了确实难管理, 最好还是套框架重构(舍弃旧代码)
如果是 Windows, superfetch 服务和你说的有点关系, 简而言之就是热数据在内存留备份避免重新从硬盘 IO 进来
1 ... 104  105  106  107  108  109  110  111  112  113 ... 133  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4651 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 59ms · UTC 05:36 · PVG 13:36 · LAX 21:36 · JFK 00:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.