抓取 Twitter, Quora, Reddit 的指定 url 的内容的方法?

2023-12-05 18:13:08 +08:00
 cloud2000
我试了 scapy/request/BeautifulSoup 的方案,只能抓一般网站。
用来抓 Twitter, Quora 会显示“javascript 不支持"等,Reddit 只能抓到楼主的提问,回复全部抓不到。

后来改成用 Selenium 倒是可以全部抓了,但是 Selenium 方案太重了。

请问:
1.有没有优雅方案可以抓上述几个社交平台指定 url 的内容?
2.如果没有,有第三方的 API (可以接受付费)支持吗?
1229 次点击
所在节点    Python
2 条回复
Retool
2023-12-05 18:35:30 +08:00
https://rapidapi.com/hub
里面有很多别人提供的非官方 API ,比如 Twitter API 就有很多,可以对比一下价格选一个划算的(有些免费额度也很高)
lifei6671
2023-12-05 19:17:42 +08:00
我用 https://github.com/go-rod/rod 来抓取抖音和小红书内容。不过这个是基于 Chrome 的,也挺笨重的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/997848

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX