网页内容如何不被百度收录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3204 天前的主题，其中的信息可能已经有所发展或是发生改变。

因为我想做一个论坛，里面的内容可能包含一些时事新闻，当然这些新闻不会是不靠谱内容。但现在我就是不知道哪些会被无缘无故的被当作-铭-感-辞-，从而导致网站被 Qiang.为了能够放心的做内容
所以我想可能最好的办法是把页面的内容，不要被百度搜录，或者不要被搜索到里面的内容。反正我也知道一般的小网站不可能被百度排名靠前，不寄希望百度来引流量。我打算通过小圈子，口碑慢慢扩散。或者谷歌来的流量。
好像用前端框架 js 渲染出来的内容，不会被搜索到页面的真正内容。
我打算对不同的 ip 页面显示做不同的处理。国外的访问，特别是对谷歌我就正常的现实。就是 html 的。如果是国内的，就用 js 来渲染，其实如果是正常用浏览器打开看内容都是一样的。目的是，这样国内的搜索就不会看到页面真正的内容，而是一堆 js 代码。
不知道这个想法是否合理。有什么技术来实现这个想法。

内容

百度

页面

搜索

28 条回复 • 2016-12-19 20:57:48 +08:00

v9ox

2016-12-08 14:44:13 +08:00

论坛搞成登陆之后可见的百度没有账号就没法爬了吧

zzlettle

2016-12-08 14:49:20 +08:00

@v9ox 登录以后才能看到真正的内容，对用户体验不好啊。我希望就像 V2EX 一样，是个人打开页面就能看到内容了。但对于百度，他们来爬的话，我希望用一些技术手段，让他们看不到内容，而只是看到 js 代码。

qiayue

PRO

2016-12-08 14:51:42 +08:00

1 、 robots.txt
2 、<meta name="robots" content="robotterms" />

yankebupt

2016-12-08 14:55:13 +08:00 via Android

国内有的拿用户浏览器协助爬防不住，建议技术手段强制用户用 chrome 或支持 inprivate 的浏览器隐私模式访问 https ，防止被爬。

v9ox

2016-12-08 14:56:01 +08:00

@zzlettle 要是百度耍流氓模拟人工访问你怎么办...

zzlettle

2016-12-08 15:17:35 +08:00

@yankebupt
@v9ox 我说的意思不是真正的不让人打开网站。因为我网站不是要做什么反动内容。只不过有些内容有些不好定义。你只要是人工打开网页，就能看到。但我们伟大的 wfg 他不可能用人工去查看每个网站内容吧，肯定是用机器里来搜查，这样就会把我页面的内容搜出来。然后可能就被 Qing 了。我主要是防止这样的事情发生。

ys0290

2016-12-08 15:22:35 +08:00 via iPhone

楼主 too naive

mcfog

2016-12-08 15:23:30 +08:00

你觉得墙是用百度来找有问题的网站的么？

choury

2016-12-08 15:24:43 +08:00

@zzlettle 这个名单还真是大部分是人工加的

v9ox

2016-12-08 15:25:17 +08:00

@zzlettle 我的意思就是百度的爬虫如果让你识别不出是不是爬虫你怎么办...

qiayue

PRO

2016-12-08 15:26:13 +08:00

楼主你真是牛逼，能让百度专门为你修改爬虫代码

wxm

2016-12-08 16:56:42 +08:00

@qiayue 哈哈哈哈

J0022ZjV7055oN64

2016-12-08 17:03:53 +08:00 via Android

(:3_ヽ)_不是可以 robots 禁止爬虫吗虽然百度不一定遵守好像可以通过 nginx 设置(参见 ss 站禁止爬虫)

zzlettle

2016-12-08 17:27:18 +08:00

@choury 有故事的人啊！
@qiayue 我的意思是，最好不要想普通的 html 直接把内容显示出来的网站那样

我在这里就想问下，有什么办法来实现我的目的

Lonely

2016-12-08 17:30:53 +08:00 via iPhone

找百度合作

sneezry

2016-12-08 17:31:38 +08:00

zxgngl

2016-12-08 17:32:05 +08:00

@zzlettle 本站现在不登陆的情况下，好像只能看个首页。

ferrum

2016-12-08 17:40:32 +08:00

首先在根目录下添加个 robots.txt ，把百度的爬虫禁了先。别管人家遵不遵守，万一人家确实是按规矩办事呢？

然后采用前后端分离的方式开发你的网站，即内容通过 Ajax 获取，而不是直接返回 HTML 。百度爬虫现在还爬不了 JS 生成的内容。

hundan

2016-12-08 17:43:16 +08:00 via Android

然而，被墙不只是因为百度啊，怕被墙可以用国外 CDN ，如果觉得速度有影响，可以再用国内 CDN 解析到国外 CDN

wenzichel

2016-12-08 17:45:22 +08:00

网页中的内容用 ajax 获取，或者先把内容写到 js 里，然后再用 js 填充到页面上

Hanxv

2016-12-08 17:54:59 +08:00

http://hanxv.pw/robots.txt

https://www.baidu.com/s?wd=site:hanxv.pw

無論怎麼做，都還是會爬的。 robots 屏蔽了不說， pw 被玩成什麼樣了它居然還爬。

不過我的使用關鍵詞基本上是搜索不到的了。
( 就算不用 robots ， pw 的權重 www