Justin3go 最近的时间轴更新
Justin3go

Justin3go

V2EX 第 645300 号会员,加入于 2023-08-24 23:06:33 +08:00
Justin3go 最近回复了
23 天前
回复了 Justin3go 创建的主题 分享创造 做了一个阿里云盘的搜索引擎
@eggt #117 重构了一个新版本,https://ssgo.app/ ,不对啊,我记得我重定向了的😂
38 天前
回复了 nickyx956 创建的主题 分享创造 来了,人手一个的工具站~
@Justin3go luckysheet 好像存档了
38 天前
回复了 nickyx956 创建的主题 分享创造 来了,人手一个的工具站~
可以请教一下 excel 用的什么库吗
都不需要登录,不怕恶意刷额度吗,虽然是服务端渲染,但也有 puppeteer 这种东西啊
@sun522198558 嗯嗯,可以试试,后续会专门优化爬虫策略部分,之前很多都没考虑,连最基本的去重都没做,不过难在已经爬取的数据该怎么处理,我有点舍不得这些数据了哈哈哈哈哈
@zhangsimon 我理解的话如果有问题那应该是阿里云盘官方的事情了,他们多半会扫描云盘资源,和谐一些敏感资源的。
@xyxc0673 OKOK ,感谢,我再看看怎么调整起来更好看一些
@timnottom 哈哈哈哈对,就是这个,感谢收录
@kilvn 主要就是爬虫部分,收集数据,像普通搜索引擎一样放个爬虫到互联网上去爬取,只是提取的是带有云盘链接的文本,然后就存入到使用了倒排索引的数据库比如 ElasticSearch 之类的,最后就是写个网站调用 API 就可以了

(扩展一下:其实不一定是云盘搜索,也可以是书籍搜索、PDF 之类的搜索,只是存的资源不同而已)

前面写过一篇博客[浅谈搜索引擎原理]( https://justin3go.com/%E5%8D%9A%E5%AE%A2/2023/08/17%E6%B5%85%E8%B0%88%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E5%8E%9F%E7%90%86)可以瞧瞧
@xyxc0673 谢谢肯定,提升空间可以具体一点吗,接下来不是很忙,可以继续优化优化这个网站
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1010 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 18:51 · PVG 02:51 · LAX 11:51 · JFK 14:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.