蜘蛛是如何发现网络上的网站/域名的?

2020-04-06 23:34:03 +08:00
 yitd
比如解析了一个二级 /域名,蜘蛛是如何知道存在这个二级 /域名的?
域名后缀那么多,挨个扫?不现实吧?
3046 次点击
所在节点    站长
12 条回复
opengps
2020-04-06 23:39:07 +08:00
蜘蛛不会知道的。
如果没有外链,没有主动推送提交,没有 sitemap 引路,那么你这个二级域名的站点几乎等同于沉入了“暗网”
chinvo
2020-04-06 23:44:18 +08:00
Google 同时还会用 chrome 去获取新链接
OneMan
2020-04-06 23:45:58 +08:00
你要自己去提交。
做个出名蜘蛛很爽吧,这边主动喂料,那边主动交钱。
xyjincan
2020-04-06 23:46:31 +08:00
跑字典,或者直接在 dns 哪里批量获取?
Ultraman
2020-04-06 23:47:54 +08:00
这里是 cloudflare 的解释。
https://www.cloudflare.com/learning/bots/what-is-a-web-crawler/
web crawler bots start from a seed, or a list of known URLs. They crawl the webpages at those URLs first. As they crawl those webpages, they will find hyperlinks to other URLs, and they add those to the list of pages to crawl next.
yitd
2020-04-06 23:47:55 +08:00
@opengps 有许多网站都没有建设好,比如搜索 Welcome to nginx! 后面几页开始就会有很多默认页面,这没有任何推送引路同样被收录
Ultraman
2020-04-06 23:54:55 +08:00
不如自行挂一个网页随便放点什么东西,再绑一个从来没用过的(二级)域名,你自己也不要访问避免如上老哥讲浏览器上传 URL 这种情况,然后等几天回来观察访问记录看 bot 能不能发现。
LukeChien
2020-04-07 02:38:07 +08:00
通过 dns,公共 dns 谷歌、百度、阿里都有。权威 dns 最早 dnspod 是和各家搜索引擎合作的。
binfeng
2020-04-07 02:54:01 +08:00
dns
chihiro2014
2020-04-07 02:55:13 +08:00
一般是自己提交,然后爬虫会去爬
Showfom
2020-04-07 08:14:39 +08:00
一般你用 Chrome 联网访问过就会被 Google 知道了
dream7758522
2020-04-07 08:48:19 +08:00
据说 36x 的蜘蛛,只要是同款浏览器再隐蔽的链接也能被抓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659945

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX