网页可读内容抽取 API 数据接口

9 天前
 Parry

网页可读内容抽取 API 数据接口

智能提取文章关键元素信息,智能抽取,多种元素信息。

1. 产品功能

2. API 文档

接口详情: https://www.gugudata.com/api/details/readability

接口地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/websitetools/readability

数据预览: https://www.gugudata.com/preview/readability

接口测试: https://api.gugudata.com/websitetools/readability/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY
html string YOUR_VALUE 需要抽取的网页 HTML 内容,与参数 url 二选一
url string YOUR_VALUE 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题)

4. 返回参数

参数名 参数类型 备注
DataStatus.RequestParameter string 接口请求参数
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.Title string 文章标题
Data.Byline string 文章作者
Data.Dir string 文章文字方向
Data.Lang string 文章语言
Data.Content string 文章内容
Data.TextContent string 文章内容(不包含 HTML 标签,按段落分割)
Data.Length int 文章长度
Data.Excerpt string 文章摘要
Data.SiteName string 网站名称
Data.PublishedTime string[] 文章发布时间
255 次点击
所在节点    推广
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094727

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX