网页内容如何不被百度收录

2016-12-08 14:43:14 +08:00
 zzlettle
因为我想做一个论坛,里面的内容可能包含一些时事新闻,当然这些新闻不会是不靠谱内容。但现在我就是不知道哪些会被无缘无故的被当作-铭-感-辞-,从而导致网站被 Qiang.为了能够放心的做内容
所以我想可能最好的办法是把页面的内容,不要被百度搜录,或者不要被搜索到里面的内容。反正我也知道一般的小网站不可能被百度排名靠前,不寄希望百度来引流量。我打算通过小圈子,口碑慢慢扩散。或者谷歌来的流量。
好像用前端框架 js 渲染出来的内容,不会被搜索到页面的真正内容。
我打算对不同的 ip 页面显示做不同的处理。国外的访问,特别是对谷歌我就正常的现实。就是 html 的。如果是国内的,就用 js 来渲染,其实如果是正常用浏览器打开看内容都是一样的。目的是,这样国内的搜索就不会看到页面真正的内容,而是一堆 js 代码。
不知道这个想法是否合理。有什么技术来实现这个想法。
2823 次点击
所在节点    问与答
28 条回复
v9ox
2016-12-08 14:44:13 +08:00
论坛搞成登陆之后可见的 百度没有账号 就没法爬了吧
zzlettle
2016-12-08 14:49:20 +08:00
@v9ox 登录以后才能看到真正的内容,对用户体验不好啊。我希望就像 V2EX 一样,是个人打开页面就能看到内容了。但对于百度,他们来爬的话,我希望用一些技术手段,让他们看不到内容,而只是看到 js 代码。
qiayue
2016-12-08 14:51:42 +08:00
1 、 robots.txt
2 、<meta name="robots" content="robotterms" />
yankebupt
2016-12-08 14:55:13 +08:00
国内有的拿用户浏览器协助爬防不住,建议技术手段强制用户用 chrome 或支持 inprivate 的浏览器隐私模式访问 https ,防止被爬。
v9ox
2016-12-08 14:56:01 +08:00
@zzlettle 要是百度耍流氓模拟人工访问你怎么办...
zzlettle
2016-12-08 15:17:35 +08:00
@yankebupt
@v9ox 我说的意思不是真正的不让人打开网站。因为我网站不是要做什么反动内容。只不过有些内容有些不好定义。你只要是人工打开网页,就能看到。但我们伟大的 wfg 他不可能用人工去查看每个网站内容吧,肯定是用机器里来搜查,这样就会把我页面的内容搜出来。然后可能就被 Qing 了。我主要是防止这样的事情发生。
ys0290
2016-12-08 15:22:35 +08:00
楼主 too naive
mcfog
2016-12-08 15:23:30 +08:00
你觉得墙是用百度来找有问题的网站的么?
choury
2016-12-08 15:24:43 +08:00
@zzlettle 这个名单还真是大部分是人工加的
v9ox
2016-12-08 15:25:17 +08:00
@zzlettle 我的意思就是百度的爬虫如果让你识别不出是不是爬虫 你怎么办...
qiayue
2016-12-08 15:26:13 +08:00
楼主你真是牛逼,能让百度专门为你修改爬虫代码
wxm
2016-12-08 16:56:42 +08:00
@qiayue 哈哈哈哈
J0022ZjV7055oN64
2016-12-08 17:03:53 +08:00
(:3_ヽ)_不是可以 robots 禁止爬虫吗 虽然百度不一定遵守 好像可以通过 nginx 设置(参见 ss 站禁止爬虫)
zzlettle
2016-12-08 17:27:18 +08:00
@choury 有故事的人啊!
@qiayue 我的意思是,最好不要想普通的 html 直接把内容显示出来的网站那样

我在这里就想问下,有什么办法来实现我的目的
Lonely
2016-12-08 17:30:53 +08:00
找百度合作
sneezry
2016-12-08 17:31:38 +08:00
zxgngl
2016-12-08 17:32:05 +08:00
@zzlettle 本站现在不登陆的情况下,好像只能看个首页。
ferrum
2016-12-08 17:40:32 +08:00
首先在根目录下添加个 robots.txt ,把百度的爬虫禁了先。别管人家遵不遵守,万一人家确实是按规矩办事呢?

然后采用前后端分离的方式开发你的网站,即内容通过 Ajax 获取,而不是直接返回 HTML 。百度爬虫现在还爬不了 JS 生成的内容。
hundan
2016-12-08 17:43:16 +08:00
然而,被墙不只是因为百度啊,怕被墙可以用国外 CDN ,如果觉得速度有影响,可以再用国内 CDN 解析到国外 CDN
wenzichel
2016-12-08 17:45:22 +08:00
网页中的内容用 ajax 获取,或者先把内容写到 js 里,然后再用 js 填充到页面上

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/326185

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX