每隔 10~20 分钟爬一次网站会被封吗?做热点聚合页面用

2022-05-14 23:12:44 +08:00
 cpf
如题所述

我想搞个热点聚合页面,每天给自己看看新闻,吃吃瓜啥的

爬取热点信息的频率为 10~20 分钟一次,不知道会不会被封 ip

这方面我不是很懂,没啥经验

之前爬过豆瓣的电影排行榜,结果爬的频率过高就给我封了一晚上

有自己的服务器,后端打算用 nodejs 写

v 友们有啥好的建议吗?
1935 次点击
所在节点    问与答
7 条回复
ClericPy
2022-05-14 23:18:32 +08:00
目前多数网站我这边 5 分钟一次没发现反爬

有些网站走了机器学习等思路反反爬, 抓取频率如果太均衡或者非人类作息什么的会反爬, 但是大多数对网站不造成伤害的频率都是安全的. 以上是反爬角度, 至于法务角度就不赘述了
Ultraman
2022-05-14 23:22:28 +08:00
看看 rsshub 有没有相关路由先?
cpf
2022-05-15 12:21:53 +08:00
@ClericPy #1 好的,谢谢

@Ultraman #2 大多数都是没有 rss 吧,比如知乎日报、热榜,微博热搜啥的
Ultraman
2022-05-15 12:39:56 +08:00
cpf
2022-05-15 13:09:07 +08:00
@Ultraman #4 是我孤陋寡闻了,谢谢😅
brave256
2022-05-16 09:15:24 +08:00
可以参考下 https://tophub.today/
cpf
2022-05-16 14:29:03 +08:00
@brave256 #6 哈哈,感谢,正需要这样的网站

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/852872

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX