这家网站的每篇文章都有一个子域名

2014-02-06 12:33:53 +08:00
 miniwade514
首页 http://blog.ciytan.com/

里面的一篇文章 http://mtpdhpgc.ciytan.com/

仔细看了下,文章都是文不对题的,这是不是传说中的垃圾站?

一篇文章一个域名,他是人工完成的么?
3347 次点击
所在节点    分享发现
7 条回复
ETiV
2014-02-06 12:35:58 +08:00
泛域名解析
binux
2014-02-06 13:03:08 +08:00
爬虫的大部分规则是根据域名做的,通过泛域可以绕过这些规则
dingyaguang117
2014-02-06 15:42:18 +08:00
@binux 他这样的让爬虫认为是不同的site,好处是?
loading
2014-02-06 15:44:36 +08:00
为了避免ciytan.com被判垃圾站
binux
2014-02-06 15:48:37 +08:00
@dingyaguang117 比如首页提权,比如单站点收录上限,比如站点抓取配额。不过,对应也会有对应的泛域挖掘策略就是了。
miniwade514
2014-02-06 18:26:35 +08:00
@ETiV 然后在服务器上根据URL“重定向”?不知道用词是否准确

@binux 它的www域名指向一个广告页面,但是文章页上也没有指向WWW域名的链接,他弄这么多页面是不是没什么用啊?

@loading 原来如此 :D
msg7086
2014-02-08 09:15:01 +08:00
@miniwade514 不是重定向。就是简单的URL美化。只不过一般是只重塑URI,而这里是重塑二级域名

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/99118

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX