网页可读内容抽取 API 数据接口
智能提取文章关键元素信息,智能抽取,多种元素信息。
接口详情: https://www.gugudata.com/api/details/readability
接口地址: https://api.gugudata.com/websitetools/readability
返回格式: application/json; charset=utf-8
请求方式: POST
请求协议: HTTPS
请求示例: https://api.gugudata.com/websitetools/readability
数据预览: https://www.gugudata.com/preview/readability
接口测试: https://api.gugudata.com/websitetools/readability/demo
参数名 | 参数类型 | 是否必须 | 默认值 | 备注 |
---|---|---|---|---|
appkey | string | 是 | YOUR_APPKEY | 付费后获取的 APPKEY |
html | string | 否 | YOUR_VALUE | 需要抽取的网页 HTML 内容,与参数 url 二选一 |
url | string | 否 | YOUR_VALUE | 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题) |
参数名 | 参数类型 | 备注 |
---|---|---|
DataStatus.RequestParameter | string | 接口请求参数 |
DataStatus.StatusCode | int | 接口返回状态码 |
DataStatus.StatusDescription | string | 接口返回状态说明 |
DataStatus.ResponseDateTime | string | 接口数据返回时间 |
DataStatus.DataTotalCount | int | 此条件下的总数据量,一般用于分页计算 |
Data.Title | string | 文章标题 |
Data.Byline | string | 文章作者 |
Data.Dir | string | 文章文字方向 |
Data.Lang | string | 文章语言 |
Data.Content | string | 文章内容 |
Data.TextContent | string | 文章内容(不包含 HTML 标签,按段落分割) |
Data.Length | int | 文章长度 |
Data.Excerpt | string | 文章摘要 |
Data.SiteName | string | 网站名称 |
Data.PublishedTime | string[] | 文章发布时间 |
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.