[网页正文提取利器]超级简单的 api

2017-03-10 19:47:13 +08:00
 intohole

https://github.com/intohole/sixgod 上网址,如果有私活的可以联系我;本人工作 5 年+

2568 次点击
所在节点    问与答
4 条回复
jiangzhuo
2017-03-10 20:05:27 +08:00
如果用 node 的同学可以试试
npm install cx-extractor

https://github.com/jiangzhuo/cx-extractor
jy02201949
2017-03-10 21:42:42 +08:00
from vampire.utils import network
楼主你确定有这个文件?
polythene
2017-03-10 22:06:02 +08:00
intohole
2017-03-10 23:06:56 +08:00
@jy02201949 html 就是下载的 html 文本,编码成 utf - 8 即可 ; 那个我移动我另外的工程里面了 b2 你可以查看下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/346548

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX