如何防止搜索引擎来抓取内容?

2012-01-16 17:19:02 +08:00
 kimcool
最近公司在被一些部门核查,导致公司需要屏蔽很多内容,但是大家都知道,一个网站的发展,肯定是需要内容的更新的。

那在技术上面能否实现,用户发表了一些帖子,然后用户可以看到,然后后台有一个审核系统,经过审核后,搜索引擎就能够抓取了。

我知道很蛋疼,但是相关部门太厉害了····不知道该怎么办了,来请教各位了!
3417 次点击
所在节点    问与答
10 条回复
c
2012-01-16 17:28:04 +08:00
在html header里加上索引控制的吧,人肉审核过了,把控制索引的去掉。前提是搜索引擎(baidu)遵循这个规则。
c
2012-01-16 17:29:11 +08:00
既然有审核,为啥搞这么复杂,直接发帖-》人肉审核--》决定帖子的命运,就好了!
kimcool
2012-01-16 17:36:04 +08:00
@c 因为帖子和其他内容太多,没有太多的人来审核····
lyxint
2012-01-16 17:37:36 +08:00
看他有哪些ip爬你. 就那么几个的话就好办了.

给每个请求一个session, 把session和ip, user-agent绑定.
frittle
2012-01-16 17:38:27 +08:00
同意ls的,既然要人肉审核,直接人肉审核好了。不过最好的方法还是呼吁用户别发不表「合格」的内容。

不管用什么方法,在通过审核后,用户在帖子里的跟帖你也不能保证会「合格」,除非每个回复都必须经过审核才能发布,这对网站的ux来说破坏性太大了。
popoer
2012-01-16 17:42:19 +08:00
可以在Robots Meta标签里面控制,主流的大的搜索引擎都还是比较守规矩的
参考:
http://baike.baidu.com/view/1011742.htm
frittle
2012-01-16 17:44:13 +08:00
@lyxint 我觉得lz只是希望对搜索引擎屏蔽相关帖子,其他帖子还是希望被搜索引擎索引。如果那搜索引擎属于相关部门,完全拒绝让它爬网站,几天后相关部门发现没爬到新条目时也会察觉吧。
kimcool
2012-01-16 17:46:57 +08:00
@frittle 是的,只是希望屏蔽相关帖子

@popoer 哎,问题相关部门的蜘蛛可是流氓呀
popoer
2012-01-16 17:56:04 +08:00
@kimcool 如果你有办法能识别出相关部分的蜘蛛,那还是容易做到的,否则就只能错杀100也不放过1个了...
chairo
2012-01-16 20:21:58 +08:00
判断用户登录状态,如果产生的内容所属用户ID == 登录的用户ID那么就显示,否则只显示审核通过状态内容...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/25703

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX