网页信息获取是爬虫还是 Selenium,还有图片分类库求推

2023-12-03 12:09:38 +08:00
 ZZ74

举个栗子
淘宝商品列表页面,获取名称和图片,以及每个商品详情后的其他一些信息。
想问下爬虫框架和 Selenium 哪个更合适,不容易触发风控。

另外想根据名称描述和图片自动分类,有没有开源或者免费的
基于开源的 tensorflow 自己训练 AI 的话耗费太大 感觉小题大做了。

1142 次点击
所在节点    问与答
5 条回复
incubus
2023-12-03 13:21:36 +08:00
这也想白嫖?
ZZ74
2023-12-03 14:45:37 +08:00
@incubus
第一个是技术选型问题
第二个是问一下,不确定有没有。白嫖谈不上吧
r6cb
2023-12-03 17:09:30 +08:00
还是早点放弃吧,正常用户去浏览都经常要人机认证。
ZZ74
2023-12-03 17:36:39 +08:00
@r6cb
不是淘宝啊 我只是举个例子 另外不是高频访问。我放到服务器上慢慢跑
aureole999
2023-12-04 13:47:45 +08:00
看你要访问的是什么网站了。有的不怎么管的你用什么都行。
不容易触发的应该还是 Selenium 或者 Puppeteer 加 Stealth 插件。

第二个 chatgpt api 之类的也许能做到?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/997226

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX