V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  coderhxl  ›  全部回复第 3 页 / 共 4 页
回复总数  73
1  2  3  4  
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@herozzm 这里也是筛选了部分 html 给 AI 进行提取数据
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@maolon 传统爬虫可能是一个更经济的选择,文章也有提到
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@zephyru 也是个不错的方法
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@enson110 要不咱看看总结那部分,“传统爬虫可能是一个更经济、更直接的选择”
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@blankmiss 该文章是面对依赖类名或结构这些元素的爬虫,像逆向这种肯定也很好,但是并非此文章的主题
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@karatsuba 这篇文章只是讲述传统爬虫与 AI 辅助爬虫的特点与优劣,为您提供决策参考。并没有讲太多的题外话,其他功能 x-crawl 也有,像设备指纹,轮换代理都有哦,https://coder-hxl.github.io/x-crawl/cn/ 下面的特征可以瞧瞧
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@blankmiss 啊?没明白说啥
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@ospider AI 只是更好的将我想描述的描述出来,相当于换了一句话讲,但意思更完美了
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@ospider 你可以去问问 AI 了不了解 x-crawl ,毕竟这个工具还是我开发的,AI 版本还是前几天加入的
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@ospider 哈哈,的确是用了 AI 帮忙,毕竟我文学水平有限,不过用的是百度的文心一言。不是让 AI 直接生成的,而是问他传统爬虫是什么之类的,然后筛选。像 x-crawl 这种,AI 又不认识。
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@wujunchuan2008 感谢您的支持。
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@gauthier 对于 OpenAI 的话,也可以使用 gpt-3.5-turbo ,默认就是这个了。后续也可能加入其他的 AI 模型,其实看名字就可以知道一点点了 createCrawlOpenAI ,这个是以 OpenAI 命名的,如果加入其他 AI 也会容易兼容。
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@hpan
{
"name": "老狐狸",
"picture": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2900908599.webp",
"info": "2023-10-27(东京国际电影节) / 2023-11-24(中国台湾) / 白润音 / 刘冠廷 / 陈慕义 / 刘奕儿 / 门胁麦 / 黄健玮 / 温升豪 / 班铁翔 / 杨丽音 / 傅孟柏 / 高英轩 / 庄益增 / 张再兴 / 许博维 / 管罄 / 钟瑶 / 游珈瑄 / 郑旸恩 / 戴雅芝 / 姜仁 / 萧鸿文...",
"score": "8.1",
"commentsNumber": "29211 人评价"
}
我截取了一个电影信息让您瞧瞧,picture 就是图片
28 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@hpan 上面的示例就是爬了图片和文字哦,并且可以看到结构很完美。AI 是一句话的事,而传统爬虫还是比较繁琐的。

如果想查看 AI 需要处理的 HTML:由于内容太多此处放不下,就只能放在此链接 https://coder-hxl.github.io/x-crawl/cn/guide/#example2 示例 2 底部的 查看 AI 需要处理的 HTML
@yzding 结构是可能不会经常变更,但是类名会经常发生改动,但这种东西也说不准的,没人能知道下一秒会发生什么。也可以先让 AI 自动生成选择器,然后缓存选择器,下次爬取就用缓存的,当然如果类名发生改变就让 AI 重新获取一下。你的想法也不错!
直接用 AI 提取所需的内容也很便捷,https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B2 这是我新写的 示例 2 ,让爬虫和 AI 获取豆瓣电影排行榜的电影信息,这个示例可能更容易理解 AI 对于提取内容的作用,您也可以瞧瞧,特别是查看 AI 返回的 filmResult (电影的信息)
@yzding 忘了还有一点,这个示例我用的是免费的 API Key ,会进行中转,并不是直接直连 OpenAI ,也可能造成慢。
@yzding 查看 AI 需要处理的 HTML:[由于内容太多此处放不下,就只能放在此链接示例底部的 查看 AI 需要处理的 HTML]( https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B),当时传入了大量的 HTML
@yzding AI 的处理时间跟传入的数据量有关
即使网站后续的更新导致类名或结构发生改变也能正常爬到数据,因为我们不再依赖于固定的类名或结构来定位并提取所需信息,而是让 AI 理解并解析网页的语义信息,从而更高效、智能和便捷提取所需数据。
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2398 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 15:19 · PVG 23:19 · LAX 08:19 · JFK 11:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.