水平有限,请教一下关于爬虫、脚本相关问题

2023-11-16 17:10:19 +08:00
 callmejoejoe

前端、后端小白

现状:

做了个谷歌插件,功能是爬取购物网站的数据,自动化处理批量重复任务; 目前是在用户自己电脑上爬数据,有些不能使用 cookie 权限的浏览器只能新开一个标签页进行爬取,用的全是 DOM 操作,感觉这种做法很 low ,数据存储在浏览器 IndexedDB 中

疑问:

  1. 购物网站的数据存在时效性,超过一天数据可能就没用了,是否有必要做成服务端爬取?看竞品好像都是服务端爬取的,前端只是给用户一个 web 界面进行操作,号称几十万速度,是怎么做到的?
  2. 存储的话,大量数据是如何做存储的?
  3. 我可以有什么方案进行优化?

感激不尽!

1160 次点击
所在节点    程序员
4 条回复
meiyiliya
2023-11-16 17:21:19 +08:00
1. 时效性和前端还是后端没有关系,都要重新爬,速度可能是进去的速度,相当于攻击了。
2. 大概率数据库
3. 前端大概率会 node.js 吧,node.js 就有很多爬虫框架了。
callmejoejoe
2023-11-16 17:40:49 +08:00
@meiyiliya 感谢回复
1. 服务端爬相较于前端爬需要额外维护处理,我这不知道有没有必要,判断“有没有必要”的衡量标准也不知道是啥。。尴尬
3. Node.js 的框架在浏览器貌似用不了
z1829909
2023-11-16 18:22:05 +08:00
如果做在前端, 那你的代码其实都是可以被看到的, 如果你后面做大了, 不太好收费, 除非你是一锤子买卖. 所以一般做后端, 爬到的数据存在数据库, 提供 api 出去, 然后收会员费那种.
数据时效性这个没办法, 能做的就是快失效了再爬一次. 另外如果不在客户端爬, ip 池, 登录账号也需要买, 机器成本, 这些是多出来的开销.
callmejoejoe
2023-11-16 18:29:19 +08:00
@z1829909 确实,代码压缩后还是会被破解,客户端爬适合前期摸索市场需求,后续再考虑转为后端吧,就是学习、开发、费用各种成本一下都上来了😭

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/992515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX