爬虫提取这种 html 有什么好的方法啊

2019-02-06 18:02:17 +08:00

zmxnv123

最近在写微博的爬虫，本来是想用 scrapy 的 xpath 提取内容，在 chrome 的 console 中试了下还正常，然而在代码中 xpath 却什么也提取不出来。

最终忽然发现 chrome 中的 elements 里面的内容和网页源码是不一样的。看了源码之后网页上的 html 竟然全都是 js 动态生成的，好二哦。

就像下面这样。

Element:

Source:

<script>FM.view({"ns":"pl.header.head.index","domid":"Pl_Official_Headerv6__1","css":[],"js":"page/js/pl/header/head/index.js?version=03f906edc4cbe84e","html":"<div class=\"PCD_header\">\r\n                <div class=\"pf_wrap\" layout-shell=\"false\" node-type=\"cover_wrap\">\r\n                <div class=\"cover_wrap\" node-type=\"cover\"  style=\"background-

那么提取这种 html 有什么好的方法啊。可怜我这种大过年还要写代码的大四狗。

3138 次点击

所在节点

程序员

14 条回复

leoleoasd

2019-02-06 18:08:47 +08:00

webdrive 里能运行 js 但是有些网站(比如淘宝)会检测 webdriver

nlysh007

2019-02-06 20:02:47 +08:00

直接 get ,然后匹配出 html 的部分就是了，有啥好说的...

hanzichi

2019-02-06 20:31:21 +08:00

无头浏览器？

luozic

2019-02-06 21:58:39 +08:00

最后情况直接上 selenium 把页面整个下载了

Sparetire

2019-02-07 00:55:07 +08:00

puppeteer

NewConn

2019-02-07 09:32:30 +08:00

插眼，我也想知道除了 web driver 和 selenium 之外的办法，总感觉这种假浏览器或者调用浏览器的方式太蠢了，不知道还有什么办法

kltt22

2019-02-07 10:18:36 +08:00

执行 js

leoleoasd

2019-02-07 18:16:25 +08:00

写个浏览器插件 socket 链接 python 接受控制

LukeChien

2019-02-08 00:18:51 +08:00

关键词: chrome headless

lynskylate

2019-02-08 01:21:57 +08:00

动态生成除了用 headless chrome 没什么太好的方法，说实话挺蠢的，每次读取完毕未必读取完毕，还得 wait 几秒。

如果有耐心的话，老实看下加密过的 js，https://beautifier.io/用这个美化下看，然后调 python 或者 java 的 u8 wrap 来执行这一段 js, 不能有网络和 dom 相关调用。

zmxnv123

2019-02-08 08:57:03 +08:00

@leoleoasd 我只是想简单的提取一些 html...

ericgui

2019-02-08 09:35:49 +08:00

我觉得你研究一下 fiddler，抓一下 api

XxxxD

2019-02-08 17:53:04 +08:00

模拟登陆 or 找 api

tikazyq

2019-02-09 19:55:01 +08:00

用 selenium 或 puppeteer

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/533212

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.