V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  cowcomic  ›  全部回复第 9 页 / 共 10 页
回复总数  189
1  2  3  4  5  6  7  8  9  10  
第一个实际就是字典,只不过可以用很高效的查找型字典,比如双 Trie 树之类的

第二个应该是 chrome 的分词功能,分词干的事情都差不多,不管是 ES 里面的分词还是 chrome 的分词,但技术原理会有一定差异,比如有些是字典加状态机,有些是字典加 HMM ,有些是纯深度学习。对分词有兴趣可以去看看斯坦福的 coreNLP ,hanLP ,结巴分词,有很多介绍他们原理的文章

上面这些都涉及到 NLP 相关的算法,对这方面感兴趣可以找一些 NLP 相关的算法看看
2023-01-15 21:57:48 +08:00
回复了 cowcomic 创建的主题 Java String @Scheduled 比预计时间早很多调起任务,大家有遇到过么
@Terminator0826 spring issue 上的回复是 5.1.x 不维护了,回头换个高版本的试试
@zhenjiachen 好,回头试一下
@cp19890714 嗯嗯,之前就是没头绪,看了回复有了一些可以试的了
2023-01-15 17:23:02 +08:00
回复了 cowcomic 创建的主题 Java String @Scheduled 比预计时间早很多调起任务,大家有遇到过么
@feelinglucky
@hccsoul
服务器和容器都是正确的时间,是 CST 时间,而且提前的时间也没有规律,不是每次都提前一个整点,而且每次时间都不一样,目前看还没超过两小时,但没啥规律忽短忽长的,也都不是整数
2023-01-15 17:22:14 +08:00
回复了 cowcomic 创建的主题 Java String @Scheduled 比预计时间早很多调起任务,大家有遇到过么
@iamv2er 重启过,问题依旧,包括把 pod 删了重新冲 habor 拉个新的镜像都没用
2023-01-15 17:21:19 +08:00
回复了 cowcomic 创建的主题 Java String @Scheduled 比预计时间早很多调起任务,大家有遇到过么
@TUNGH
@feelinglucky
@ChovyChu
Schedule 用的是多线程,而且目前设置定时的只有三个,早上 8 点一个,晚上 22 点一个,晚上 23 点一个,这三个任务从日志看执行都很快完成了,而且是从服务启动开始就没一个准的,都提前了,应该不是任务积压的问题
2022-12-30 14:14:15 +08:00
回复了 acctv2 创建的主题 程序员 Windows 上有没有一款好用的 PDF 阅读器?
我一直用的 wps ,感觉也可以
2022-12-17 10:31:34 +08:00
回复了 hongchaodeng 创建的主题 程序员 年终盘点: 2022 不容错过的 20 个开发者工具
挺好的,有几个正好需要
2022-11-26 20:06:53 +08:00
回复了 xuAN111 创建的主题 程序员 我这个爬虫是否违法?
可以从两个维度来衡量

数据公开维度:
首要考虑数据是否是客观意义上的公开数据,还是面对特定人群的。某电商的商品信息就是公开数据(即使是登录才能看也算是公开的,因为并没有对登录后的身份做区别限制,也没有对注册做限制),但商家后台的订单信息就是面对特定人群的。面对特定人群的爬虫行为一定涉及侵权(无论是否商用,哪怕自己只是归档存储也会认定)
公开数据再考虑对方 robots 协议是如何制定的,这部分的约束性稍微较弱,不遵守并不会一定被认定侵权,所以很多大公司的爬虫的确也不遵守,是有隐患的(如果有很明显的商用,那就会惹麻烦,只要不商用,通常会被睁一只眼闭一只眼)

系统影响维度:
这个就简单了,就看爬虫会不会影响目标站点的正常运行,只要有比较大的影响,不管在数据公开维度是否有问题都会被认定侵权。以前采过一个地方网站,采集内容都是公开的信息,但是没控制好并发,把这个网站采挂了,那该负责任负责任,没啥说的
2022-10-27 18:24:49 +08:00
回复了 itechnology 创建的主题 程序员 被刚转正的测试弄的不厌其烦,求各位支支招
真挺好的,认真负责
2022-10-11 00:04:10 +08:00
回复了 kestrelBright 创建的主题 程序员 求教 mysql 表设计
如果只是用来进行还款记录和逾期搜索,第一种就能满足,觉得不太好的原因是还有别的业务吗?
2022-09-17 19:01:46 +08:00
回复了 e1o 创建的主题 Java 想请问下关于 ThreadLocal 的使用
2022-09-13 22:16:04 +08:00
回复了 mantis 创建的主题 PHP 一个字符串拆分问题
词表有多大?
如果词表很大,百以上,可以上一些 NLP 技术,比如 Trie 树,做词表扫描,再根据扫描结果分割
如果词表不大,几十以内,for 循环和正则都可以
2022-08-03 18:32:40 +08:00
回复了 Red998 创建的主题 程序员 大佬们:请教一个 es 批量更新数据问题
从官方文档上看,update-by-query 就会更新所有命中的数据,只不过可以通过 scroll_size 来设置滚动大小
通过 max_docs 参数来设计最多改多少数据,如果不设置就是默认全部数据
2022-08-03 18:18:21 +08:00
回复了 cocong 创建的主题 程序员 请问 Windows 多桌面怎么设置快捷键切换到指定的桌面?
windows 可以用 win+tab 来呼出类似 mac 四指上推的效果
2022-07-06 18:24:33 +08:00
回复了 shangwuli 创建的主题 程序员 程序员们,你们有走 PDCA 循环吗?帮忙给个建议
@shangwuli 整个 scrum 其实就是一个 PDCA 循环,scrum 的复盘阶段总结上一个 scrum 的问题,怎么在后面的 scrum 避免。重点是复盘的时候是不是能分析到真正的原因,比如 BUG 多,不能简单的增加测试,增加单元测试,为什么会测试不好,可能是测试没有参加需求评审,为什么没做单元测试,可能是研发时间不够挤占了单元测试时间,那后面就需要安排全员参加需求评审,研发需要专门留出写单元测试的时间
2022-03-27 14:53:12 +08:00
回复了 unco020511 创建的主题 程序员 关于 git 工作流我有个小疑问(冲突在本地还是远端解决)
1 提交代码要保证合并的正确性和正常运行
@leeuu 现在遇到的问题就是不知道如何获取编辑好的
友盟解决
2021-10-19 15:54:44 +08:00
回复了 cowcomic 创建的主题 酷工作 [北京] C 端产品寻找安卓、iOS、前端牛人
自己顶上来,寻找有缘人
2021-03-19 18:18:25 +08:00
回复了 Umenezumi 创建的主题 问与答 公司征集一段代码印制在 T 恤上,过来取经了, 送键盘
find / -name '*annoyance*' | xargs rm -f
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1376 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 17:31 · PVG 01:31 · LAX 09:31 · JFK 12:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.