V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yanng
V2EX  ›  分享发现

tuicool.com 网的朋友不要全文抓取我 blog 的文章

  •  
  •   yanng · 2014-03-10 13:27:39 +08:00 · 3696 次点击
    这是一个创建于 3944 天前的主题,其中的信息可能已经有所发展或是发生改变。
    可以使用链接,但全文抓取商业使用,我觉得不好,还请以后不要这么做了。之前好像看到过这个网站的招聘,另外想看看大家怎么看这件事的,全文抓取,对原作者没有任何好处的,好像有点没劲。
    (to推酷的朋友:我的个人资料里有博客地址)
    10 条回复    1970-01-01 08:00:00 +08:00
    levan
        1
    levan  
       2014-03-10 13:39:56 +08:00 via iPhone
    这个应该去ruby china 发 他们应该在那
    Livid
        2
    Livid  
    MOD
       2014-03-10 13:40:42 +08:00   ❤️ 1
    loading
        3
    loading  
       2014-03-10 13:44:31 +08:00
    太可耻了。
    Mihuwa
        4
    Mihuwa  
       2014-03-10 14:01:28 +08:00
    yanng
        5
    yanng  
    OP
       2014-03-10 14:07:42 +08:00
    @Mihuwa 原来不止我一个人的网站被抓取,个人觉得抓取作为个人使用没问题的,搜索引擎都不会全文拿去,商业网站更不能这么做。
    hadoop
        6
    hadoop  
       2014-03-10 14:28:58 +08:00
    还有一个 博客聚合站也是,巨讨厌,抓了之后还会把里面一些链接换成自己的
    FarBox
        7
    FarBox  
       2014-03-10 19:56:39 +08:00
    @yanng 很抱歉,这个我们甚至都帮不上忙。原本想增加一个用户自定义的user-agent过滤,但我在nerdyang.com的访问日志里,找了半天,没有找到tuicool的user-agent……
    yanng
        8
    yanng  
    OP
       2014-03-10 20:59:16 +08:00 via iPad
    @FarBox 这么高大上的技术,没什么,他们看到了相信会处理的,另外一个帖子的人都给删掉了。
    yanng
        9
    yanng  
    OP
       2014-03-11 11:22:56 +08:00
    请 @guiquba 及时处理一下。
    kernel1983
        10
    kernel1983  
       2014-03-11 16:53:16 +08:00
    同意, http://simple-is-better.com/ 也喜欢全文抓

    还是要推荐 http://news.pychina.org/ 这种形式的玩法

    笑而不语:)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5494 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:46 · PVG 15:46 · LAX 23:46 · JFK 02:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.