爬虫： get 请求一个 url 不返回主体 html，状态码 200，这是加权限了吗？

2020-01-07 14:39:02 +08:00

s609926202

使用 Guzzlehttp 请求时时，返回内容如下：

<!DOCTYPE html>
<html>
  <head>
    <script>一些 js 代码</script>
  </head>
  <body>
    <script>一些 js 代码</script>
  </body>
</html>

在浏览器中响应内容是全部的 html 内容。
初步怀疑这是有什么权限之类的原因？对爬虫不是很了解，路过的帮忙看看。

1997 次点击

所在节点

7 条回复

noreplay

2020-01-07 14:49:44 +08:00

没玩过爬虫，感觉是一个 js 执行的问题，可以试一下无头浏览器之类的进行爬

s609926202

2020-01-07 14:55:16 +08:00

使用 curl 返回的内容如下图

crella

2020-01-07 17:39:41 +08:00

爬 www.newsmth.net 一样。每次访问页面都被 js 处理并解析，所以要有类似浏览器 js 环境的 js 解析器

s609926202

2020-01-07 17:43:57 +08:00

@crella php 可以实现吗？

crella

2020-01-07 19:06:57 +08:00

@s609926202 selenium，安装 firefox 或 chrome 驱动并安装对应浏览器。

我都是道听途说，没亲身试过。听说 selenium 有内存泄漏问题

ruimz

2020-01-07 19:19:11 +08:00

@crella 不用这么麻烦…newsmth 的 js 文件也是有规律对应的。F12 一下找到 js 文件地址，直接爬 js 就行…………

qoo2019

2020-01-07 19:32:01 +08:00

根据 ua，直接返回 200 就行了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.