URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00

URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ，主页地址：http://www.url2io.com

URL2Article 服务提供 RESTful API 接口，用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

标题识别：

不仅仅是简单地提取 title 标签，而是智能识别网页正文的标题。

正文识别：

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

发布日期识别：

智能识别文章的发布日期。

下一页链接识别：

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面，所以这个功能会非常有用。

Demo

demo 地址：点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务，我们写了一个教学示例 Pageless，它使用 URL2Article API 来提取网页正文，并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下，然后给点反馈（使用中出现的问题、会用来开发什么、意见和建议等都可以）。欢迎留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183

22808 次点击

所在节点

102 条回复

geeglo

2016-09-30 11:37:47 +08:00

我反正是没这需求，自己解析也挺方便的

leilux

2016-09-30 11:47:21 +08:00

@geeglo 如果要解析的页面非常多的话还是挺恼火的，而且页面结构变了的话还得重新分析。有这种自动化的服务还是挺好的^_^

DoraJDJ

2016-09-30 11:52:26 +08:00

用自己的 blog 试了一下，好像连头像都不小心给抓到了 23333

jy02201949

2016-09-30 11:55:37 +08:00

不错不错，想当年刀耕火种的年代，用雅虎的 pipe ，之后是自己写代码，如今已经开始自动化了

URL2io

2016-09-30 12:31:59 +08:00

@DoraJDJ 你这个巨型弹幕有点凶残啊！哈哈哈

tscat

2016-09-30 12:35:05 +08:00

收藏一下，午休后看看。希望比有道的好用

URL2io

2016-09-30 12:46:40 +08:00

@jy02201949 看来是老司机了，自动化之后能做的事就有意思了，比如 URL2Article 与 pipe 的结合

wuyadong

2016-09-30 12:47:26 +08:00

下一页连接，是怎样识别的呀，能否大致告知一下。谢谢

URL2io

2016-09-30 12:54:45 +08:00

@tscat 可以使用我们提供的接口将网页的正文提取出来，再发到有道笔记里

doubleflower

2016-09-30 13:05:32 +08:00

这个攫取服务器是在国内还是国外的？

URL2io

2016-09-30 13:06:50 +08:00

@wuyadong 大致的假设是本页链接与下一页链接的网址不会相差太大，应该有一个特定的模式。通过收集大量网站的下一页链接，做特征工程，再通过机器学习训练和预测下一页链接。只能讲这么多了 -_-

如果有相关需求还是推荐使用我们的产品，肯定比自己写的好用 ^_^

doubleflower

2016-09-30 13:08:19 +08:00

好象不灵啊，比如这样的：

https://zhuanlan.zhihu.com/p/22597353

URL2io

2016-09-30 13:18:03 +08:00

@doubleflower 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持，要渲染 js 的开销太大了。

它的[接口]( https://zhuanlan.zhihu.com/api/posts/22597353)还是挺好找的，不过现在还没有找到一种高效、普适的方法就没有处理这种情况。

iyaozhen

2016-09-30 13:20:47 +08:00

挺不错的。赞

doubleflower

2016-09-30 13:20:56 +08:00

@URL2io 先用普通方式抓，发现没内容就用浏览器方式。

URL2io

2016-09-30 13:45:02 +08:00

@doubleflower 用浏览器方式是指加上 User-Agent 吗？也不行啊。它的内容是靠 js 加载的，也就是说如果浏览器禁用了 js ，那直接用浏览器访问都没有内容。

Google 的爬虫可以收录 JS 和 CSS 内容，用的方法好像也不是全部渲染，不知道怎么实现的......

doubleflower

2016-09-30 13:51:52 +08:00

@URL2io 用这种 http://phantomjs.org/ 现在的很多网页爬虫就是这么搞的。

URL2io

2016-09-30 14:14:10 +08:00

@doubleflower 感谢感谢

leilux

2016-09-30 15:33:41 +08:00

提取结果还是挺准的，赞一个

Aether

2016-09-30 15:35:11 +08:00

抓 V2EX 的时候……

第 1 页／共 6 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/309948

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX