首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Coding
V2EX  ›  程序员

某些网站把个人博客的文章爬去了,不带原文链接,如何应对?

  •  
  •   liufish · 42 天前 · 4485 次点击
    这是一个创建于 42 天前的主题,其中的信息可能已经有所发展或是发生改变。

    话说,某些网站把个人博客的文章爬去了,放在他们自己网站上,还不带原文链接,这个怎么应对呢?

    42 回复  |  直到 2019-11-04 10:56:25 +08:00
        1
    murmur   42 天前
    只能不写,没办法,君不见啊*云 等大网站都大量爬取外国网站翻译后当 seo 用 整个行业都这样 你能怎么办
        2
    aocif23   42 天前   ♥ 3
    我想到了百度知道的骚招,让部分文字变成图片。
        3
    opengps   42 天前   ♥ 1
    我反正是为了防这个,原文的连接总是故意作为内容带在文章末尾。
        4
    shiny   42 天前   ♥ 1
    找些版权平台,类似快版权之类
        5
    caijunyi   42 天前
    维权骑士
        6
    secondwtq   42 天前   ♥ 2
    在原文内容中插入一些比较和谐的片段,谁爬谁倒霉

    ... 反正思路大体如此
    一个旧闻:歌词协作共享平台 Genius 怀疑搜索引擎 Google 一直在剽窃他们网站上的歌词,于是他们选了一些歌词,以摩尔斯码的规律替换其中的单引号字符为直引号和弯引号,并监测 Google 的搜索结果,发现这些引号的变化同样出现在 Google 的结果中,于是就发出了 complaint,第二天发现 Google 上面那些零宽字符消失了 :)

    当然个人就算能掌握证据也不能怎么样,所以就只能借助那只无形的大手的力量
        7
    1239305697   42 天前   ♥ 1
    还好我都加了原文地址的
        8
    xkzhangsan   42 天前
    现在爬虫是违法的,可以告他们
        9
    Jirajine   42 天前 via Android   ♥ 1
    放敏感内容,等他爬完删掉然后举报。
        10
    linvaux   42 天前
    开玩笑,看看 csdn,毒瘤啊
        11
    opengps   42 天前
    歪个楼,楼主的头像能不能设计的认真点!
        12
    mamahaha   42 天前
    摇人,打他
        13
    slanternsw   42 天前   ♥ 1
    推特上流行喝茶内容反盗图,不过要小心自己吃到赵弹打击
        14
    Monkey2020   42 天前   ♥ 1
    自己在文章中留下自己的原文地址; 最好写系列文章;然后文章里面外链引用一下自己之前发的文章;这样被爬取了,也能看到你的原文的
        15
    jimmy3780   41 天前 via iPhone
    不知道国外的主机能不能发出 DMCA 的侵权通知,如果接受的话对方就会被拔网线了

    是国外,一般是美国的主机商

    国内不清楚
        16
    BrightSphere   41 天前 via Android
    更改一套字体映射
        17
    liufish   41 天前
    多谢各位回复。我回头在文章里做做内容好了。
        18
    Varobjs   41 天前 via Android
    隔几段就把后一段变成图,记不影响体验,被抓了换图
        19
    liufish   41 天前
    @opengps 爬文章的人特意把链接删掉了。
    我的头像是很认真设计了的。
        20
    ThomasZ   41 天前   ♥ 1
    恩不写原文链接的是挺没道德的,盗用他人文章样然后说自己原创的不仅没有道德还没有素养
    要不楼主试试直接全文图片带特大号水印的方式, 代码什么的给上 gits 或者 github 的链接这样
        21
    liufish   41 天前
    @1239305697 他们非常贴心的把原文地址删了。
        22
    dandycheung   41 天前 via iPhone
    曾被推酷这么干过,给他们发邮件就搞定了。觉得还是尽量先直接联系他们吧。
        23
    skiy   41 天前
    现在很多人不爱写博客了,因为流量都没到这边来。百度权重永远是给 CSDN 之流的,估计是交了保护费吧
        24
    mydearbaby   41 天前 via Android
    这个还是要从根本上解决,早两年也做过一些抓取,楼上说的什么插图片不解决问题,对方可以把图片本地化。这个要先确认下对方是用的什么方法抓去的,html 标签提取,还是 xpath,有没有用代理。如果对方用的标签提取,你不考虑 seo 的话,文章内容写一个打乱排序的方法或者加密方法,结合 js,重置排序或者解密,不影响用户阅读体验,但是他抓去之后就乱了。如果是 xpath 提取,大概率是能直接提取你给用户最终呈现的效果,乱序和加密解密没意义。那没办法,只能封 ip,做策略,限制访问。
        25
    reus   41 天前 via Android
    起诉
        26
    reus   41 天前 via Android
    @xkzhangsan 爬虫不违法,爬个人信息才违法。爬虫违法的话,百度就不用干了
        27
    MikeLei   41 天前
    阿里云爬的文章,真的是垃圾中的战斗机,有时候里面就是零零散散完全没有意义的几个字,有时候里面压根就没有任何内容,只有标题是搜索的目标词,都是目录导流到其它页面的词条,真的是垃圾。
        28
    isukkaw   41 天前
    把你自己网站的权重做到足够高,这样不论他们怎么爬取,都没有办法和你竞争 SEO。
        29
    luckylo   41 天前 via Android
    转图片?上水印?
        30
    greatbody   41 天前
    爬虫是违法的。除非你的网站里面没有写 rebot.txt
        31
    LZSZ   41 天前
    放些广告试试?
        32
    tabris17   41 天前
    把原文链接以 0px 的大小嵌入正文
        33
    superrichman   41 天前 via iPhone
    @Jirajine 这操作太骚了
        34
    FantasyPupil   41 天前
    @reus 爬虫需要遵守 robots.txt 规则,只要遵守了就不违法。 主流的搜索引擎都遵守的。
        35
    Epsil0n9   41 天前
    @shiny

    "看了一下这位蒋律师的历史回答,就是快板的人。这是帮律师开的公司,收购作者报刊上的旧文章版权,然后散播到网上。因为作者知名度一般,原文章首发于地方报纸,刊登内容为生活常识小科普。导致网上大多数公众号运营无法判断来源,同时也觉得这种日常生活文章没有过多原创性。转载后,该公司会恶意发函,对公众号索要高达 3000 的侵权费,同时该公司位于杭州垄断了 80%的杭院互联网起诉案,全靠这种无赖起诉法,被告多为内蒙北京等远地,又会驳回异审申诉,导致被告打官司成本过高,只能吃哑巴亏。收益全部被该公司获得,作者只有当初卖的稿费。说白了就是买旧文章处找中小企业碰瓷的公司,钻了法律的漏洞,屡试不爽,用同一篇文章已经起诉了上百家企业,一个打着“保护原创”的流氓公司。"

    作者:匿名用户
    链接: https://www.zhihu.com/question/59277574/answer/227023845
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
        36
    Cielsky   41 天前 via Android
    @aocif23 百度知道的答案就是百度百科啊,维基百科等地方复制过来的
        37
    shiny   41 天前
    @Epsil0n9 之前差评洗稿,霍炬维权就是找的快版权。
        38
    encro   41 天前
    如果被百度收录了,去百度举报。
        39
    yingfengi   41 天前 via Android
    我的小破站也被爬了,我去留言要脸吗,作者回复不要。。。。。
        40
    xdaoo   39 天前 via iPhone
    文章用 canvas 画出来
        41
    liufish   39 天前
    一个比一个硬核了。我这只是个 hexo 做的静态博客而已 [捂脸
        42
    janyin   39 天前
    阿里云 seo 很厉害呀
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2140 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 30ms · UTC 15:44 · PVG 23:44 · LAX 07:44 · JFK 10:44
    ♥ Do have faith in what you're doing.