Python 使用 requests 获取到 V2EX 某个话题页的内容与查看网页源代码的结果不一样，有部分 html 代码缺失，不知道是什么原因啊？

2017-05-20 21:01:23 +08:00

creatorYC

例如 V2EX 的某个话题页的 url 是： https://www.v2ex.com/t/362535 ，使用 requests 获取内容的代码为：

	resp = session.get(url, headers=headers)
    print resp.content

我以为是动态网页，又使用了 phantomjs 和 selenium ，代码为：

	driver = webdriver.PhantomJS("D:/phantomjs-2.1.1-windows/bin/phantomjs.exe")
	driver.get(url)
	print driver.page_source

跟查看网页源代码的结果仍然不一样，部分 html 代码缺失了。这是什么原因啊，真心求教。

3094 次点击

所在节点

Python

12 条回复

2017-05-20 21:48:38 +08:00

https://www.v2ex.com/api/topics/show.json?id=362535

creatorYC

2017-05-20 21:55:50 +08:00

@oh 我的目的不是这个，是为了模拟点击“收藏”，“感谢”之类的功能，可是官方没有这些 API

katsusan

2017-05-20 22:03:46 +08:00

试了一下登录状态会影响到网页源代码的好像

creatorYC

2017-05-20 22:07:13 +08:00

@katsusan 意思是要先登录吗？我是模块测试的，所以没有登录，我去试试，谢谢！

creatorYC

2017-05-20 22:25:25 +08:00

问题已经解决了，需要登录。谢谢大家

katsusan

2017-05-20 23:12:08 +08:00

@creatorYC 不客气，其实我是小白中的白中白←_←

dd99iii

2017-05-21 15:45:02 +08:00

虽然 requests 也没问题，不过既然 ve2x 提供了 API 就用吧

creatorYC

2017-05-21 16:16:21 +08:00

@dd99iii 这个需求没有 API 啊，有 API 的都用了 API 哦

dd99iii

2017-05-21 23:04:59 +08:00

@creatorYC 比如？ https://www.v2ex.com/api/topics/show.json?id=362535

creatorYC

2017-05-21 23:12:14 +08:00

@dd99iii 比如收藏某个话题，关注某个用户

dd99iii

2017-05-21 23:16:11 +08:00

@creatorYC 那的确是

creatorYC

2017-05-21 23:25:58 +08:00

@dd99iii 嗯，所以自己爬到了，嘿嘿

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/362683

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.