小说转码,小说换源的技术手段是爬虫吗?

2019-05-22 08:47:25 +08:00

TomVista

迫于好奇,

爬下来网页,将固定格式的页面转换为文本?是这个意思不?

2555 次点击

所在节点

7 条回复

keepeye

2019-05-22 08:58:35 +08:00

1. 识别大段文本
其他的楼下补充

TomVista

2019-05-22 09:00:56 +08:00

那么 doc.loaded(){ajax 异步} 请求下来的数据能爬到吗?

Phuasheng

2019-05-22 09:08:51 +08:00

ajax 的直接调用接口不就得了，抓下的内容随便往数据里面存，你可以在抓的时候过滤，也可以在读、渲染的时候过滤

Light3

2019-05-22 09:12:02 +08:00

要看页面是啥样的有的是接口有的是直接显示的可能要抓页面当然有的可能是图片..

TomVista

2019-05-22 09:22:26 +08:00

明白了,谢谢诸位.

mouren

2019-05-22 09:31:07 +08:00

正文提取我用的是 Arc90 Readability 的算法
章节列表自动提取是自己写的算法

ismyyym

2019-05-22 09:35:36 +08:00

浏览器某种意义上也是爬虫

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

小说转码,小说换源 的技术手段是爬虫吗?