今天搜自己的博客,发现了有一篇和自己一样的,还以为是被人转载了,还挺开心,结果看完发现作者和原链接都不是自己的,瞬间就不开心了

2020-11-24 14:08:44 +08:00
 HelloWorld556
4636 次点击
所在节点    Blogger
35 条回复
Lemeng
2020-11-24 17:52:29 +08:00
瞬间不开心了,哈哈哈,可爱
muzuiget
2020-11-24 18:21:29 +08:00
看开点算了,现在哪怕 Google 搜中文,前面结果也是各种内容农场的网站,本来通用搜索引擎就是垃圾了,你在怎么优化也是白搭,还不如用垂直搜索引擎好。
dustin2016
2020-11-24 18:29:38 +08:00
我之前的 wqordpress 博客也被人镜像了
用了十几种防止爬取和镜像的方法

目前,已放弃治疗😂
ob
2020-11-24 18:40:17 +08:00
把文字内容全部转成图片加水印,大家觉得怎么样?就不管爬虫了。。
fasionchan
2020-11-24 18:47:21 +08:00
@GetMoney 付费阅读也不能幸免……

我去年在慕课网写了一个 Python 源码剖析专栏: https://www.imooc.com/read/76
刚发表不久就发现被某些公众号抄了,只字未改……
好在,微信公众平台上可以投诉,官方处理也快,不然真拿这些孙子没办法……
ragnaroks
2020-11-24 18:55:17 +08:00
匿名用户前 30%内容直接展现,后面内容需要登录可见
wenzichel
2020-11-24 18:59:20 +08:00
https://www.xiabingbao.com/post/blog/blog-be-cloned.html

曾经我的博客也被人爬过,是整站的爬下来。然后我就想着去工信部投诉这个网站,不过后面他把他网站上的内容给删了。

后来我就在 js 里加了一个域名的判断,如果是非自己的域名就跳转。就是不知道管不管用。
aristolochic
2020-11-24 19:34:41 +08:00
@dusays 不在乎 CDN 开销的话...可以用邪恶的私有字体。就是得费点儿劲。
大致就是字体和编号随机一对一重新排列,生成的 HTML 中的文本部分也做此处理
这种...也就别想被搜索引擎收录了
(不太清楚现在的采集站能不能发现
VgV
2020-11-24 19:36:41 +08:00
这种事情要淡定,如果不在乎搜索引擎可以把内容转为图片加水印。
Tyuans
2020-11-24 20:22:38 +08:00
看了看上面的,以后部分内容文字部分文字图片,倒是没什么用,也就是恶心恶心。
LiuSha
2020-11-24 20:23:52 +08:00
淡定,碰到好一点的会评论说自己转载的,坏的情况就是直接爬过去
dusays
2020-11-25 15:24:16 +08:00
@myevery 我已经习惯了~
dusays
2020-11-25 15:24:49 +08:00
@HelloWorld556 确实如此,不仅扒了我的内容,还有别人的站,就是个采集站,看到好的就扒!
dusays
2020-11-25 15:58:06 +08:00
@tcp 没有后端,博客用的是 Hexo,直接生成 html 的页面~
dusays
2020-11-25 15:59:38 +08:00
@aristolochic 倒也不担心被采集,只是希望转载之后,可以保留版权,别伪原创~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/728695

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX