小说转码,小说换源 的技术手段是爬虫吗?

2019-05-22 08:47:25 +08:00
 TomVista

迫于好奇,

爬下来网页,将固定格式的页面转换为文本?是这个意思不?

2500 次点击
所在节点    问与答
7 条回复
keepeye
2019-05-22 08:58:35 +08:00
1. 识别大段文本
其他的楼下补充
TomVista
2019-05-22 09:00:56 +08:00
那么 doc.loaded(){ajax 异步} 请求下来的数据能爬到吗?
Phuasheng
2019-05-22 09:08:51 +08:00
ajax 的直接调用接口不就得了,抓下的内容随便往数据里面存,你可以在 抓的时候过滤,也可以在读、渲染的时候过滤
Light3
2019-05-22 09:12:02 +08:00
要看页面是啥样的 有的是接口 有的是直接显示的 可能要抓页面 当然有的可能是图片..
TomVista
2019-05-22 09:22:26 +08:00
明白了,谢谢诸位.
mouren
2019-05-22 09:31:07 +08:00
正文提取我用的是 Arc90 Readability 的算法
章节列表自动提取是自己写的算法
ismyyym
2019-05-22 09:35:36 +08:00
浏览器某种意义上也是爬虫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/566417

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX