V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  URL2io  ›  全部回复第 1 页 / 共 3 页
回复总数  45
1  2  3  
2019-10-09 14:33:01 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
2017-04-25 08:55:15 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@qsnow6 可以,但别用大并发^_^
2017-04-02 23:35:15 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@dreamcog 加 QQ 群吧 341180183 小窗聊
2017-03-10 19:52:21 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@dreamcog 目前不收费的哈,会一直做下去的 ,请放心使用。^_^
2016-11-20 20:24:13 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下
2016-11-06 21:41:38 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@ ldehai 不知道该说什么好……
2016-10-31 15:59:30 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@soulmine 感谢使用!

1. 验证外链是否失效不会出现在正文提取阶段,所以对于外链失效就要自己想办法了,毕竟还有 src 在。
2. 这次发布是 URL2Article ,顾名思义适用范围是新闻,博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务,那它返回的字段肯定完全不同,比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题,还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的,所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果,可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了,而且严重依赖原站的 CSS 设计,所以如果不能提取出第 2 条所说的那些字段,要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项,只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊?
2016-10-30 01:40:29 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@ghosrt 不做语义分析,要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了,哈哈
2016-10-13 11:48:09 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@nicoljiang 可以的啊, blog 是托管在 github 上的,这两天习惯性抽风,要多刷几次 -_-
2016-10-11 12:56:08 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@Youen 撸种子?? How ??
2016-10-11 12:55:00 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@Yeoman (¯﹃¯)
2016-10-11 12:46:12 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@jeremaihloo 恩,速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块 ,这是一大优点。不过因此也带来了一些限制。因为使用行分块,所以提取前要去除 html tag ,这样就只能提取出文字内容了,顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难,因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。
2016-10-10 21:45:13 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@typcn 和 import 没法比啊,它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能,让大家可以集成到自己的软件系统中(或许也可以集成到 import 中)。两者的关系更像是框架与库的关系。

目前有关 js 动态渲染的东西都不支持,不过图片 lazyload 之后会支持的……

方便贴一下“列表页面第一项被识别成标题”的网址吗?目前在对正文提取做优化,十分需要这种提取效果不好的样本……
2016-10-10 14:03:16 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@tinyproxy 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持,要渲染 js 的开销太大了。 虽然它的接口

https://zhuanlan.zhihu.com/api/posts/21454432

还是挺好找的,不过现在还没有找到一种高效、普适的方法,就没有处理这种情况。

PS :看完你推荐的这个网页,我内心涌起了想要为知乎日报做特殊处理的冲动 -_-
2016-10-10 13:44:37 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@ljcarsenal 已经解决,感谢反馈!
2016-10-08 17:00:29 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@olbb 可以的,请求时带上 next 参数,在返回的数据中就会包含当前网页的下一页链接(如果有的话)。

* 具体文档可以看 http://www.url2io.com/docs
* 具体示例可以看 pageless ,它就利用了这个特性,实现持续地加载分页中的正文内容

其实帖子中都写了的…… -_-
2016-10-07 17:00:43 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@HanSonJ 是有点…… -_- ,哈哈 偷懒了
2016-10-07 14:10:12 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@HanSonJ 其中有什么不妥的地方吗?
2016-10-06 15:43:02 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@v9ox 墙太高不好翻啊 (⇀‸↼‶)
2016-10-05 23:12:01 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@jqw1992
@Warder 感谢支持!
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1100 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 23:30 · PVG 07:30 · LAX 15:30 · JFK 18:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.