网页内容如何不被百度收录

2016-12-08 14:43:14 +08:00
 zzlettle
因为我想做一个论坛,里面的内容可能包含一些时事新闻,当然这些新闻不会是不靠谱内容。但现在我就是不知道哪些会被无缘无故的被当作-铭-感-辞-,从而导致网站被 Qiang.为了能够放心的做内容
所以我想可能最好的办法是把页面的内容,不要被百度搜录,或者不要被搜索到里面的内容。反正我也知道一般的小网站不可能被百度排名靠前,不寄希望百度来引流量。我打算通过小圈子,口碑慢慢扩散。或者谷歌来的流量。
好像用前端框架 js 渲染出来的内容,不会被搜索到页面的真正内容。
我打算对不同的 ip 页面显示做不同的处理。国外的访问,特别是对谷歌我就正常的现实。就是 html 的。如果是国内的,就用 js 来渲染,其实如果是正常用浏览器打开看内容都是一样的。目的是,这样国内的搜索就不会看到页面真正的内容,而是一堆 js 代码。
不知道这个想法是否合理。有什么技术来实现这个想法。
2824 次点击
所在节点    问与答
28 条回复
Hanxv
2016-12-08 17:54:59 +08:00
http://hanxv.pw/robots.txt

https://www.baidu.com/s?wd=site:hanxv.pw

無論怎麼做,都還是會爬的。 robots 屏蔽了不說, pw 被玩成什麼樣了它居然還爬。

不過我的使用關鍵詞基本上是搜索不到的了。
( 就算不用 robots , pw 的權重 www
wenymedia
2016-12-08 19:04:57 +08:00
数据客户端渲染 不要服务端渲染 不就好了
Hello1995
2016-12-08 19:33:16 +08:00
屏蔽 UA ,特别注意包含 Spider 、 Bot 两个字眼的。针对百度就是 Baiduspider (注意设置不区分大小写),你可以把 UA 带有这个字眼的访问 301 回百度首页。
MC
2016-12-08 19:46:05 +08:00
techmoe
2016-12-08 19:46:26 +08:00
同意 16 楼做法,直接在 dns 里把百度 ip 段甩 127
badcode
2016-12-09 03:27:26 +08:00
<meta name="robots" content="noarchive" />
<meta http-equiv="Cache-Control" content="no-transform" />
<meta http-equiv="Cache-Control" content="no-siteapp" />
<meta name="robots" content="index,nofollow" />

robots 加屏蔽 UA, spider, Bot ,返 403 ,

还好,故意开始测试过一段时间,
关键字首页前三,现在好像都找不到了?
看日志,其实还是每天都在爬!爬虫都能自己"改" UA
yankebupt
2016-12-19 20:32:10 +08:00
不好意思翻老贴了,因为想到一个很贱的方法,就是刻意用隐藏文字 spam 热门关键字,(真正的关键字反而做反爬脚本处理),让搜索引擎的爬虫把你误判成一个恶意 seo 的垃圾网站,有可能排名就靠后了。当然防不了真人工就是了
zzlettle
2016-12-19 20:57:48 +08:00
@yankebupt 这个方法搞的好像更复杂了,感觉。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/326185

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX