爬虫是内容媒体第一生产力

2017-05-09 10:16:41 +08:00
 jianzhiyao

最近写了一篇关于 mysql 的文章吧, 过了一段时间后, 看看搜索引擎工作效率如何, 一搜, 发现第一个搜索结果, 标题和我的文章完全一致, 而且还声明原创! 那个博客载体是 C*DN 的, 具体就不暴露了, 怎么感觉现在的很多内容载体都喜欢复制粘帖, 百毒一搜某个技术关键词, 复制粘帖的一大堆, 复制粘帖也就算了, 还要格式错乱!

人工 SEO: 百度内容重复 内容爬虫浪费生命

2669 次点击
所在节点    互联网
15 条回复
shuirong1997
2017-05-09 10:51:05 +08:00
昨天我 Google 搜一关键词,在 segmentfault 看到了一个相关问题。然后又在 Google 搜索第一页中间看到一个网站,把 seg 的问题和回答全部 copy 了,也没有说出处。
shuirong1997
2017-05-09 10:53:08 +08:00
每天都要搜很多次技术关键词,最气的就是连续点开好几个网页,内容却都是一样的....
zhouyg
2017-05-09 11:59:54 +08:00
同感,中文的技术内容,尤其是基础入门的通常都一通乱抄
exoticknight
2017-05-09 12:01:48 +08:00
很多人只是当博客是云剪贴板
mokeyjay
2017-05-09 12:07:07 +08:00
很多人眼里博客=笔记本
wangjie
2017-05-09 12:15:55 +08:00
@shuirong1997 同感
otakustay
2017-05-09 12:53:00 +08:00
互联网的价值不是创造内容,而是传播内容
Vogan
2017-05-09 12:54:32 +08:00
@otakustay 也不应该是复制内容啊
cbais7890
2017-05-09 12:59:28 +08:00
@otakustay #7

把正确的知识整理成书, 带上注解和说明才配得上叫传播
随口一句 "我听说..." 叫做瞎掰
网上这些垃圾爬虫爬不到原始格式还干扰搜索, 不管正确性内容还千篇一律, 或许你认为这样就算传播内容了?
otakustay
2017-05-09 13:01:53 +08:00
@cbais7890 传播错误的内容也是传播,互联网从来没有说过自己的正确性,在任何时代任何环境下筛选信息及信息源都是人自身应该有的能力,就如同你在小饭店不会把所有人的谈话都听到脑子里,这是人类几千年进化而来的天然信息屏障,互联网不过区区百年,人类还需要几千年的适应和进化
cbais7890
2017-05-09 13:07:20 +08:00
@otakustay #10

低质量的爬虫传播提高了我们的检索成本, 而本应该降低我们检索成本的搜索引擎却一塌糊涂, 百度首当其冲
我觉得我们不需要在这个无意义的方面"进化"
otakustay
2017-05-09 13:22:19 +08:00
@cbais7890 你去饭店别桌人说话同样是提高成本,但中国的饭局文化就是说说说,只不过你已经进化到了别人说话根本不影响你的程度,所以你不觉得饭店里别桌说话是“提高信息分析成本”,那么你会说这几千年来人类进化出这个能力是无意义的,应该一开始就让人类不会在吃饭的时候说话么
jianzhiyao020
2017-05-09 13:53:35 +08:00
@shuirong1997 说不定是 sg 爬的,谁也说不清
oisc
2017-05-09 13:56:44 +08:00
垃圾站 采集站 太多了
dongxiaozhuo
2017-05-09 14:07:58 +08:00
@shuirong1997 记得很多年前,想要解决某个手机的问题,发现能搜索到的方案全是 copy 的。当时就看到某个用户对这样行为的一句评价:xxx 的解决方案,不过是在互联网上流传了很多年的一段废话。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/360033

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX