是用 Requests for #Python#呢,还是 Request for #Node#呢?

2015-10-09 08:08:46 +08:00
 devn1l
要实现一个模拟浏览器操作的工具,是用 Requests for #Python#呢,还是 Request for #Node#呢?

大致的工作流是这样的,分别模拟用户到两个不同的网站上去刷数据,比对后满足一定条件执行后续操作。要求高性能,能很好的处理 cookie ,因所有操作都是登录后。
2759 次点击
所在节点    Python
9 条回复
yaxin
2015-10-09 08:50:20 +08:00
你熟悉哪种语言就用哪种
plqws
2015-10-09 09:32:18 +08:00
都可以,差别不大,熟悉什么用什么,刚开始学的话感觉 Python 坑会比较少
imdjh
2015-10-09 09:51:25 +08:00
我推荐用 nodejs 内建的 http.request 模块。

Pro: 相对 request 模块,更少 overhead ,自己管理最大并发量( http.agent),但需要自己处理 cookie(手动设置发出去的 header ,异步(不清楚 py 的 requests 是不是)。

Cons: 但是就像楼上所说, agent , header 会有坑可能要踩,而且国内文档不多。很无奈的是 nodejs 的 api 不太稳定,天晓得哪天发个 6.0.0 。还有就是内存, cpu 占用很高,这些都要考虑到。
gamexg
2015-10-09 09:55:50 +08:00
node 不熟悉, python Requests 能自动处理 cookie ,比较方便。

http://cn.python-requests.org/en/latest/user/advanced.html#id2

最后网页非常复杂的时候 python 还可以模拟浏览器运行 js ,甚至直接启动浏览器模拟访问。
imdjh
2015-10-09 10:05:22 +08:00
@gamexg 你最后提到的浏览器相关的感觉好黑科技。能够细说下给个链接,或者给几个 keyword 吗?谢谢
lei286394973
2015-10-09 10:11:11 +08:00
@imdjh selenium + phantomjs 就可以啊
aisk
2015-10-09 11:40:33 +08:00
gevent + requests + python
magicdawn
2015-10-09 12:15:24 +08:00
Node.js superagent 自动处理 cookie
icedx
2015-10-09 13:08:01 +08:00
Python 有硬伤 处理不好动态页面 最后还是要挂靠 Node
如果楼主两个水平差不多的话 推荐 Node

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/226488

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX