迫于老婆要买衣服,写了个 serverless 的 selenium 玩具

2020-01-15 16:06:37 +08:00
 leishi1313

项目在这儿: https://github.com/leishi1313/serverless-web-differ

主要用途就是可以在云端有个无头浏览器不断地帮你查看你想查看的页面,一旦发现有不同,可以通过 Email,Server 酱之类的发送通知。因为是 serverless 的,所以可以很省心,不用担心服务下线(其实我就是想这么玩玩看)。

技术上主要基于Serverless&AWS Lambda,还有就是 Selenium。所以本身就禁 Selenium 的几个网站:淘宝、知乎、大众点评等等还是爬不了(或者说要多费点手段),反正我的需求只要能够爬老婆的几个卖衣服网站就 OK,所以就先这样了。感兴趣的可以配置一下玩玩看

过两天再做个 docker image,更通用一些

4742 次点击
所在节点    分享创造
16 条回复
greatghoul
2020-01-15 17:30:52 +08:00
真的有老婆吗?
precisi0nux
2020-01-15 18:53:35 +08:00
灰机杯好评
pcbl
2020-01-15 18:54:53 +08:00
不从淘宝买衣服的老婆不是好老婆
SquirrelMAN
2020-01-15 18:58:13 +08:00
最近正好有类似需求 支持
JCZ2MkKb5S8ZX9pq
2020-01-15 19:04:57 +08:00
请问 selenium 现在可以突破 taobao 了嘛?
之前不会加 header 被识别过,后来也没再试过。
JCZ2MkKb5S8ZX9pq
2020-01-15 19:06:28 +08:00
汗,刚看到详情了,打扰了。
非淘宝的话直接 requests 更轻吧
controller
2020-01-15 23:37:33 +08:00
散了散了,要老婆的。
leishi1313
2020-01-16 04:51:26 +08:00
@JCZ2MkKb5S8ZX9pq 大部分购物网站光 requests 是不行的。再说靠 selenium 的话可以直接访问网页通过 xpath 得到价格,用 requests 还得一个个费劲地找价格对应的 API 是什么。理想状态下加监控的网站只需要修改配置文件然后重新 deploy 就可以了,代码都不需要改
leishi1313
2020-01-16 04:52:31 +08:00
@greatghoul
@controller 要的要老婆的,而且还得背着每月收入-100%的 debuff
haozes
2020-01-16 09:23:44 +08:00
puppeteer 他们能防得住么?
leishi1313
2020-01-16 11:30:59 +08:00
@haozes 能的,只要想防什么都能。
myqoo
2020-01-16 16:17:52 +08:00
@haozes ofcourse
pincoudeduanyin
2020-01-16 16:22:12 +08:00
啥意思,这个有什么用处,不太懂...
leishi1313
2020-01-17 01:30:00 +08:00
@pincoudeduanyin 看不懂就是用不上,点个星星就好👌
ohoh
2020-01-17 09:45:15 +08:00
我记得有个 chrome 插件干这个的, 相当强大, 功能也超多, 但是
我 不记得也找不到这插件叫啥了
imdoge
2020-01-17 19:20:47 +08:00
@leishi1313 淘宝没试过,知乎试过,防不住的,无非是正确的 ua,http 头,还有 webdriver 等字段

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/638171

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX