V2EX › coderhxl 的所有回复 › 第 3 页 / 共 4 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4

❮

❯

2024-04-22 11:58:39 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@hahahaii 但是还是要考虑生成的函数如何应对通用爬虫的场景

2024-04-22 11:56:50 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@triangle111 对的，所以最好两者结合起来用，可以先获取 Body ，然后对 Body 内的一些元素进行删除，特别是 script 和 svg 这两个的内容，内容越多消耗的资源也就越多，而且还没啥用。这样就能以最小的代价利用 AI 爬取数据。

2024-04-22 11:55:20 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@ayang23 好方法，只是解析函数是如何应对通用爬虫的场景

2024-04-22 11:53:58 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@624144061 好滴

2024-04-22 11:41:40 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@fank99 可以这么理解，像依赖类名或结构这些元素的爬虫不也是对页面解析提取数据

2024-04-22 11:40:43 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@herozzm 这里也是筛选了部分 html 给 AI 进行提取数据

2024-04-22 11:39:56 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@maolon 传统爬虫可能是一个更经济的选择，文章也有提到

2024-04-22 11:38:36 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@zephyru 也是个不错的方法

2024-04-22 11:37:32 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@624144061 感谢您，https://coder-hxl.github.io/x-crawl/cn/guide/create-ai-application 这里可以免费领 api key

2024-04-22 11:31:53 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@enson110 要不咱看看总结那部分，“传统爬虫可能是一个更经济、更直接的选择”

2024-04-22 11:27:21 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@blankmiss 该文章是面对依赖类名或结构这些元素的爬虫，像逆向这种肯定也很好，但是并非此文章的主题

2024-04-22 11:23:56 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@karatsuba 这篇文章只是讲述传统爬虫与 AI 辅助爬虫的特点与优劣，为您提供决策参考。并没有讲太多的题外话，其他功能 x-crawl 也有，像设备指纹，轮换代理都有哦，https://coder-hxl.github.io/x-crawl/cn/ 下面的特征可以瞧瞧

2024-04-22 11:09:46 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@blankmiss 啊？没明白说啥

2024-04-22 11:02:00 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@ospider AI 只是更好的将我想描述的描述出来，相当于换了一句话讲，但意思更完美了

2024-04-22 10:58:48 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@ospider 你可以去问问 AI 了不了解 x-crawl ，毕竟这个工具还是我开发的，AI 版本还是前几天加入的

2024-04-22 10:56:29 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@ospider 哈哈，的确是用了 AI 帮忙，毕竟我文学水平有限，不过用的是百度的文心一言。不是让 AI 直接生成的，而是问他传统爬虫是什么之类的，然后筛选。像 x-crawl 这种，AI 又不认识。

2024-04-22 10:52:54 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@wujunchuan2008 感谢您的支持。

2024-04-22 10:52:03 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@gauthier 对于 OpenAI 的话，也可以使用 gpt-3.5-turbo ，默认就是这个了。后续也可能加入其他的 AI 模型，其实看名字就可以知道一点点了 createCrawlOpenAI ，这个是以 OpenAI 命名的，如果加入其他 AI 也会容易兼容。

2024-04-22 10:24:59 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@hpan
{
"name": "老狐狸",
"picture": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2900908599.webp",
"info": "2023-10-27(东京国际电影节) / 2023-11-24(中国台湾) / 白润音 / 刘冠廷 / 陈慕义 / 刘奕儿 / 门胁麦 / 黄健玮 / 温升豪 / 班铁翔 / 杨丽音 / 傅孟柏 / 高英轩 / 庄益增 / 张再兴 / 许博维 / 管罄 / 钟瑶 / 游珈瑄 / 郑旸恩 / 戴雅芝 / 姜仁 / 萧鸿文...",
"score": "8.1",
"commentsNumber": "29211 人评价"
}
我截取了一个电影信息让您瞧瞧，picture 就是图片

2024-04-22 10:22:03 +08:00

回复了 coderhxl 创建的主题 › 推广 › 传统爬虫还是 AI 辅助爬虫？该怎么选？

@hpan 上面的示例就是爬了图片和文字哦，并且可以看到结构很完美。AI 是一句话的事，而传统爬虫还是比较繁琐的。

如果想查看 AI 需要处理的 HTML：由于内容太多此处放不下，就只能放在此链接 https://coder-hxl.github.io/x-crawl/cn/guide/#example2 示例 2 底部的查看 AI 需要处理的 HTML

1 2 3 4

❮

❯