放出去的爬虫被泛解析站群困住了,如何才能爬出去?

2016 年 9 月 7 日
 dsg001

hxxp://58938.ytnrip.cn/ hxxp://02344.125091.com/ hxxp://48455.66539.co/ hxxp://30362.ert34sd.pw/ hxxp://89219.57truy65.pw/ hxxp://61834.i9wan.com/ hxxp://62787.jiudiangege.com/ hxxp://38674.635948.com/ hxxp://94240.66528.co/ hxxp://45739.77366.co/ hxxp://06105.125036.com/ hxxp://47877.55973.co/ hxxp://67569.744526.com/ hxxp://65439.800kk.com/ hxxp://60305.929348.com/ hxxp://88861.99973.info/ hxxp://28813.380009.club/ hxxp://67356.195763.com/

大概这种站

5118 次点击
所在节点    Python
15 条回复
hack
2016 年 9 月 7 日
我的站群一天就能让百度谷歌神马爬掉几个 G ,人也淡定了
wjm2038
2016 年 9 月 7 日
@hack 来个域名看看
hack
2016 年 9 月 7 日
@wjm2038 不来,淡定啊,爬虫能识别出来站群的话,就能跳出,实际上现有搜索引擎识别站群的能力都很有限
wjm2038
2016 年 9 月 7 日
@hack 楼主给的网站我看了。。爬虫是会自己停止么。。这种感觉不是自主学习的爬虫都得困里面
hack
2016 年 9 月 7 日
@wjm2038 爬虫会记录下自己的任务,下次继续爬,基本上一个月爬虫爬掉几百 G 很正常的,反正站群就是引流的,无所谓了,只要不爬死 server 就行
zhjits
2016 年 9 月 7 日
要么域名里面有四位以上纯数字就扔掉,要么给子域名随机动一个 bit 再抓一次,如果页面相同部分超过 90% 就判断成辣鸡站
dsg001
2016 年 9 月 8 日
@zhjits 相似度没用,全部都是随机调用, js 写入框架
wyntergreg
2016 年 9 月 8 日
爬过的站你不记录吗,别走回头路总是行的吧
dsg001
2016 年 9 月 8 日
@wyntergreg 泛解析的站群,无限二级域名,记录也没用
bombless
2016 年 9 月 8 日
记录二级域名的访问数量,然后限制每个二级域名的访问数吧
至于说大量使用三级、 4 级域名的站,不爬也罢, 233
xderam
2016 年 9 月 8 日
一般的域名不太会超过百个吧,先判断下域名个数,然后再爬啊。
dsg001
2016 年 9 月 8 日
@xderam
@bombless
限制二级域名数量误伤太大, github.ioblogspot.com 等都是大量二级域名
exch4nge
2016 年 9 月 9 日
@dsg001 可以获取下主域名的排名
haitang
2016 年 9 月 9 日
如果是泛解析,可以在某主域二级域名过多时,尝试进行无意义的多个二级域名解析,如随机几位英文+数字组合,进行多次验证,可以解析且打开不是 404 等,基本都是垃圾站了
yq70Wfm8y9vY6yh3
2024 年 7 月 9 日
16c4a

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/304638

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX