V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zzlettle
V2EX  ›  问与答

网页内容如何不被百度收录

  •  
  •   zzlettle · 2016-12-08 14:43:14 +08:00 · 2932 次点击
    这是一个创建于 2938 天前的主题,其中的信息可能已经有所发展或是发生改变。
    因为我想做一个论坛,里面的内容可能包含一些时事新闻,当然这些新闻不会是不靠谱内容。但现在我就是不知道哪些会被无缘无故的被当作-铭-感-辞-,从而导致网站被 Qiang.为了能够放心的做内容
    所以我想可能最好的办法是把页面的内容,不要被百度搜录,或者不要被搜索到里面的内容。反正我也知道一般的小网站不可能被百度排名靠前,不寄希望百度来引流量。我打算通过小圈子,口碑慢慢扩散。或者谷歌来的流量。
    好像用前端框架 js 渲染出来的内容,不会被搜索到页面的真正内容。
    我打算对不同的 ip 页面显示做不同的处理。国外的访问,特别是对谷歌我就正常的现实。就是 html 的。如果是国内的,就用 js 来渲染,其实如果是正常用浏览器打开看内容都是一样的。目的是,这样国内的搜索就不会看到页面真正的内容,而是一堆 js 代码。
    不知道这个想法是否合理。有什么技术来实现这个想法。
    28 条回复    2016-12-19 20:57:48 +08:00
    v9ox
        1
    v9ox  
       2016-12-08 14:44:13 +08:00
    论坛搞成登陆之后可见的 百度没有账号 就没法爬了吧
    zzlettle
        2
    zzlettle  
    OP
       2016-12-08 14:49:20 +08:00
    @v9ox 登录以后才能看到真正的内容,对用户体验不好啊。我希望就像 V2EX 一样,是个人打开页面就能看到内容了。但对于百度,他们来爬的话,我希望用一些技术手段,让他们看不到内容,而只是看到 js 代码。
    qiayue
        3
    qiayue  
       2016-12-08 14:51:42 +08:00
    1 、 robots.txt
    2 、<meta name="robots" content="robotterms" />
    yankebupt
        4
    yankebupt  
       2016-12-08 14:55:13 +08:00 via Android
    国内有的拿用户浏览器协助爬防不住,建议技术手段强制用户用 chrome 或支持 inprivate 的浏览器隐私模式访问 https ,防止被爬。
    v9ox
        5
    v9ox  
       2016-12-08 14:56:01 +08:00
    @zzlettle 要是百度耍流氓模拟人工访问你怎么办...
    zzlettle
        6
    zzlettle  
    OP
       2016-12-08 15:17:35 +08:00
    @yankebupt
    @v9ox 我说的意思不是真正的不让人打开网站。因为我网站不是要做什么反动内容。只不过有些内容有些不好定义。你只要是人工打开网页,就能看到。但我们伟大的 wfg 他不可能用人工去查看每个网站内容吧,肯定是用机器里来搜查,这样就会把我页面的内容搜出来。然后可能就被 Qing 了。我主要是防止这样的事情发生。
    ys0290
        7
    ys0290  
       2016-12-08 15:22:35 +08:00 via iPhone
    楼主 too naive
    mcfog
        8
    mcfog  
       2016-12-08 15:23:30 +08:00
    你觉得墙是用百度来找有问题的网站的么?
    choury
        9
    choury  
       2016-12-08 15:24:43 +08:00
    @zzlettle 这个名单还真是大部分是人工加的
    v9ox
        10
    v9ox  
       2016-12-08 15:25:17 +08:00
    @zzlettle 我的意思就是百度的爬虫如果让你识别不出是不是爬虫 你怎么办...
    qiayue
        11
    qiayue  
       2016-12-08 15:26:13 +08:00
    楼主你真是牛逼,能让百度专门为你修改爬虫代码
    wxm
        12
    wxm  
       2016-12-08 16:56:42 +08:00
    @qiayue 哈哈哈哈
    J0022ZjV7055oN64
        13
    J0022ZjV7055oN64  
       2016-12-08 17:03:53 +08:00 via Android
    (:3_ヽ)_不是可以 robots 禁止爬虫吗 虽然百度不一定遵守 好像可以通过 nginx 设置(参见 ss 站禁止爬虫)
    zzlettle
        14
    zzlettle  
    OP
       2016-12-08 17:27:18 +08:00
    @choury 有故事的人啊!
    @qiayue 我的意思是,最好不要想普通的 html 直接把内容显示出来的网站那样

    我在这里就想问下,有什么办法来实现我的目的
    Lonely
        15
    Lonely  
       2016-12-08 17:30:53 +08:00 via iPhone
    找百度合作
    sneezry
        16
    sneezry  
       2016-12-08 17:31:38 +08:00
    zxgngl
        17
    zxgngl  
       2016-12-08 17:32:05 +08:00
    @zzlettle 本站现在不登陆的情况下,好像只能看个首页。
    ferrum
        18
    ferrum  
       2016-12-08 17:40:32 +08:00
    首先在根目录下添加个 robots.txt ,把百度的爬虫禁了先。别管人家遵不遵守,万一人家确实是按规矩办事呢?

    然后采用前后端分离的方式开发你的网站,即内容通过 Ajax 获取,而不是直接返回 HTML 。百度爬虫现在还爬不了 JS 生成的内容。
    hundan
        19
    hundan  
       2016-12-08 17:43:16 +08:00 via Android
    然而,被墙不只是因为百度啊,怕被墙可以用国外 CDN ,如果觉得速度有影响,可以再用国内 CDN 解析到国外 CDN
    wenzichel
        20
    wenzichel  
       2016-12-08 17:45:22 +08:00
    网页中的内容用 ajax 获取,或者先把内容写到 js 里,然后再用 js 填充到页面上
    Hanxv
        21
    Hanxv  
       2016-12-08 17:54:59 +08:00
    http://hanxv.pw/robots.txt

    https://www.baidu.com/s?wd=site:hanxv.pw

    無論怎麼做,都還是會爬的。 robots 屏蔽了不說, pw 被玩成什麼樣了它居然還爬。

    不過我的使用關鍵詞基本上是搜索不到的了。
    ( 就算不用 robots , pw 的權重 www
    wenymedia
        22
    wenymedia  
       2016-12-08 19:04:57 +08:00 via Android
    数据客户端渲染 不要服务端渲染 不就好了
    Hello1995
        23
    Hello1995  
       2016-12-08 19:33:16 +08:00 via iPhone
    屏蔽 UA ,特别注意包含 Spider 、 Bot 两个字眼的。针对百度就是 Baiduspider (注意设置不区分大小写),你可以把 UA 带有这个字眼的访问 301 回百度首页。
    techmoe
        25
    techmoe  
       2016-12-08 19:46:26 +08:00 via Android
    同意 16 楼做法,直接在 dns 里把百度 ip 段甩 127
    badcode
        26
    badcode  
       2016-12-09 03:27:26 +08:00
    <meta name="robots" content="noarchive" />
    <meta http-equiv="Cache-Control" content="no-transform" />
    <meta http-equiv="Cache-Control" content="no-siteapp" />
    <meta name="robots" content="index,nofollow" />

    robots 加屏蔽 UA, spider, Bot ,返 403 ,

    还好,故意开始测试过一段时间,
    关键字首页前三,现在好像都找不到了?
    看日志,其实还是每天都在爬!爬虫都能自己"改" UA
    yankebupt
        27
    yankebupt  
       2016-12-19 20:32:10 +08:00 via Android
    不好意思翻老贴了,因为想到一个很贱的方法,就是刻意用隐藏文字 spam 热门关键字,(真正的关键字反而做反爬脚本处理),让搜索引擎的爬虫把你误判成一个恶意 seo 的垃圾网站,有可能排名就靠后了。当然防不了真人工就是了
    zzlettle
        28
    zzlettle  
    OP
       2016-12-19 20:57:48 +08:00
    @yankebupt 这个方法搞的好像更复杂了,感觉。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3036 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 13:43 · PVG 21:43 · LAX 05:43 · JFK 08:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.