V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Justin3go  ›  全部回复第 1 页 / 共 3 页
回复总数  52
1  2  3  
23 天前
回复了 Justin3go 创建的主题 分享创造 做了一个阿里云盘的搜索引擎
@eggt #117 重构了一个新版本,https://ssgo.app/ ,不对啊,我记得我重定向了的😂
38 天前
回复了 nickyx956 创建的主题 分享创造 来了,人手一个的工具站~
@Justin3go luckysheet 好像存档了
38 天前
回复了 nickyx956 创建的主题 分享创造 来了,人手一个的工具站~
可以请教一下 excel 用的什么库吗
都不需要登录,不怕恶意刷额度吗,虽然是服务端渲染,但也有 puppeteer 这种东西啊
@sun522198558 嗯嗯,可以试试,后续会专门优化爬虫策略部分,之前很多都没考虑,连最基本的去重都没做,不过难在已经爬取的数据该怎么处理,我有点舍不得这些数据了哈哈哈哈哈
@zhangsimon 我理解的话如果有问题那应该是阿里云盘官方的事情了,他们多半会扫描云盘资源,和谐一些敏感资源的。
@xyxc0673 OKOK ,感谢,我再看看怎么调整起来更好看一些
@timnottom 哈哈哈哈对,就是这个,感谢收录
@kilvn 主要就是爬虫部分,收集数据,像普通搜索引擎一样放个爬虫到互联网上去爬取,只是提取的是带有云盘链接的文本,然后就存入到使用了倒排索引的数据库比如 ElasticSearch 之类的,最后就是写个网站调用 API 就可以了

(扩展一下:其实不一定是云盘搜索,也可以是书籍搜索、PDF 之类的搜索,只是存的资源不同而已)

前面写过一篇博客[浅谈搜索引擎原理]( https://justin3go.com/%E5%8D%9A%E5%AE%A2/2023/08/17%E6%B5%85%E8%B0%88%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E5%8E%9F%E7%90%86)可以瞧瞧
@xyxc0673 谢谢肯定,提升空间可以具体一点吗,接下来不是很忙,可以继续优化优化这个网站
@chanChristin 遭,怎么还是有这个问题,我再看看
105 天前
回复了 Justin3go 创建的主题 分享创造 做一个微信小程序版的短链接平台?
@cmlanche
@ao99
@gongquanlin

好吧,这个想法打住了
@yiyun223 @wu529778790 感谢肯定
@easymbol 从未受到过如此二字评价,谢谢🥳
@hack21 感谢感谢
@abcdecsf OKOK ,感谢
@gkinxin 还没看内容,不过交互挺有意思,感谢推荐
226 天前
回复了 Justin3go 创建的主题 分享创造 做了一个阿里云盘的搜索引擎
@silverzidan 可以,是一个不错的地方
226 天前
回复了 Justin3go 创建的主题 分享创造 做了一个阿里云盘的搜索引擎
@Tyrant1984 hhhh ,喜欢就好,请耐心等待,它会变得更好的
226 天前
回复了 Justin3go 创建的主题 分享创造 做了一个阿里云盘的搜索引擎
@GeekAsher 目前感觉优化爬虫策略效果大于增加资源,因为从后台来看爬取了太多无用的资源进行分析了,互联网的网页太多了,得找一个合适的策略进行提前过滤,比如最简单的根据 url 后缀判断是不是静态资源,是就跳过爬取之类的就可以节省很多资源
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1011 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 19:05 · PVG 03:05 · LAX 12:05 · JFK 15:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.