Python 爬虫爬取头条街拍的问题

2019-05-28 16:46:04 +08:00
 XiaoCilang
各位大佬,请教个问题,使用 requests 时:
s = requests.get('https://www.toutiao.com/api/search/content/?keyword=%E8%A1%97%E6%8B%8D&aid=24&app_name=web_search&offset=0&format=json&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=',int(time.time()))
发送上面这个请求后,调用 s.json()返回的信息不是正确的网页信息,但是把 keyword 后面的‘&’(即 a 前面的&)去掉后就可以正确抓取到,而且把 keyword 这个参数和其他参数换位置后不管怎么样都抓取不到。
用开发者工具查看头条街拍的 Request URL 是: https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=1559032961134,实在搞不懂,请各位大佬帮忙。
2289 次点击
所在节点    Python
3 条回复
Achilless
2019-05-28 17:00:02 +08:00
爬街拍多没劲,爬 h 图啊哈哈
XiaoCilang
2019-05-28 17:35:03 +08:00
@Achilless 新手,慢慢来哈哈哈。
tikazyq
2019-05-28 17:39:53 +08:00
不可能吧,API 接口文档先研究清楚一下撒

顺便打个广告开源爬虫平台 Crawlab, https://github.com/ tikazyq/crawlab

Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。

最近开发的可配置爬虫正好解决你配置爬虫的问题,1-3 分钟编写好一个可运行的爬虫。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/568455

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX