一个 xxx.html 页面 有几个 varxxx 的变量 。想弄明白这上面的变量是后台渲染的,还是 ajax 加载进去的

2018-03-01 23:35:36 +08:00
 jakeyfly

分析了好久,之后的请求都有用到这个最原始的页面上定议的这几个变量的值。

查看请求顺序,这个页面是第一个。

是否这个页面是后台渲染的。

这种页面有几千个,不可能是事先做好的吧。

如果是后台渲染的,那是不是就无法抓到这些值了。

求大佬们解惑。。。

另:这网站真是绝。。。。最关键的几个数据,居然是这样写在源码里的~~~~大写的服

1299 次点击
所在节点    问与答
10 条回复
qiayue
2018-03-02 00:53:14 +08:00
直接写在了 html 里不是最容易获取数据的方式之一吗?
geelaw
2018-03-02 01:14:52 +08:00
你只要关掉 JavaScript 就可以看出来它是不是 JavaScript 运行才会有的了
jakeyfly
2018-03-02 01:21:30 +08:00
@geelaw 怎么关掉啊 chrome 没试过
jakeyfly
2018-03-02 01:23:07 +08:00
@qiayue 因为要有几千个,那就变成要先爬这个页面,正则把这一段搞下来。再清洗,或者用 JS 包跑一下把值取出来,会多好多访问,难度 会加大好大,对稳定的爬取难度变高了
jakeyfly
2018-03-02 01:24:44 +08:00
@geelaw 大佬我关了 还是有,页面上的东西全没了,源码还是原来的源码。 请教这种情况,要怎么理解。
geelaw
2018-03-02 01:26:42 +08:00
@jakeyfly #5 那不就是说明传送到客户端的时候就有这些内容么?

以及你可以用 headless Chrome 或者是 IE COM 来让网页处于浏览器里面,这样你就可以获取到和真实用户完全一样的感受,那些东西到底是怎么出来的都没关系,都可以拿到。
jakeyfly
2018-03-02 01:34:34 +08:00
@geelaw 您说的是无端浏览器吗,我尽量少用那个东西,会有依赖感 ,我一般分析请求直接获取数据。那大佬,那这样的情况是否就像,django 的 views 渲染的模板一样,显示出来的时候就带有了? 是无法通过分析请求取得这个值的吧。那只能先抓页面,节取要的值,构造请求 URL 这一条路啦
hanzichi
2018-03-02 11:17:37 +08:00
查看 html 源码,如果有就是后端渲染的,这样不行?

为什么后端渲染的就不能爬了?直接分析不就行了
jakeyfly
2018-03-02 13:02:40 +08:00
@hanzichi 如果取 html 上的值,那页面有一万个,我就得请求一万次,如果能找到传来的值。我只需要请求 3 次。这样的区别啊。所以才一直找这个原因。 如果后台渲染的。无法取得传来的值。那我只好老实的爬页面取值,再构造 URL 了
jakeyfly
2018-03-02 13:03:30 +08:00
@hanzichi 主要另一个数据,我是直接分析出后台传来的值的规律。获取的。碰到这个恶心的 直接在模板上的。有点崩贵了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/434088

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX