小说转码,小说换源的技术手段是爬虫吗?

This topic created in 2618 days ago, the information mentioned may be changed or developed.

迫于好奇,

爬下来网页,将固定格式的页面转换为文本?是这个意思不?

7 replies • 2019-05-22 09:35:36 +08:00

keepeye

May 22, 2019

1. 识别大段文本
其他的楼下补充

TomVista

May 22, 2019

那么 doc.loaded(){ajax 异步} 请求下来的数据能爬到吗?

qqqz

May 22, 2019

ajax 的直接调用接口不就得了，抓下的内容随便往数据里面存，你可以在抓的时候过滤，也可以在读、渲染的时候过滤

Light3

May 22, 2019

要看页面是啥样的有的是接口有的是直接显示的可能要抓页面当然有的可能是图片..

TomVista

May 22, 2019

明白了,谢谢诸位.

mouren

May 22, 2019

正文提取我用的是 Arc90 Readability 的算法
章节列表自动提取是自己写的算法

ismyyym

May 22, 2019

浏览器某种意义上也是爬虫

小说转码,小说换源 的技术手段是爬虫吗?