一直挺好奇的, Google 是如何抓取隐藏内容的?

2021-02-18 11:43:16 +08:00
 coolcatha
有些论坛的内容是需要回复,或者支付一定的论坛的什么积分才能看到。但是在 Google 直接搜索这些隐藏的内容,发现 Google 已经收录了隐藏的内容,很好奇 Google 是怎么做到的。

难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗
3961 次点击
所在节点    Google
21 条回复
itskingname
2021-02-18 11:46:48 +08:00
有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
AngryPanda
2021-02-18 11:48:23 +08:00
不负责任猜想:有权限的用户使用了 chrome 浏览器
littlelooloo
2021-02-18 11:54:29 +08:00
你看到的是前段,google 的蜘蛛抓得是后端
shuax
2021-02-18 11:56:56 +08:00
有可能是还没设置权限就被抓了。
docx
2021-02-18 11:57:22 +08:00
已知的两种可能:
1. 在源码里,假隐藏,打开 F12 找找
2. 针对 Google Bot 开放检索权限
docx
2021-02-18 11:57:56 +08:00
补充一条
3. 还没设置权限时已被抓取
superrichman
2021-02-18 11:58:20 +08:00
可能做了 seo 优化,也可能就是漏洞
westoy
2021-02-18 11:59:09 +08:00
网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
ruixue
2021-02-18 12:14:11 +08:00
大概率是针对 Google 做了 SEO,允许 Googlebot 爬
很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅
甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取
coolcatha
2021-02-18 12:20:33 +08:00
@itskingname
@dzyou2007

我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。


@ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。
docx
2021-02-18 12:30:42 +08:00
User-Agent 携带了 Google Bot 信息,判断很容易
@coolcatha
coolcatha
2021-02-18 12:37:18 +08:00
@dzyou2007 这个太容易伪造了,除了 Google bot 的 IP 其他的都能伪造呀
silymore
2021-02-18 12:40:20 +08:00
@AngryPanda 记得 360 浏览器这么干过
coolcatha
2021-02-18 12:41:15 +08:00
@AngryPanda
@silymore

Google 不至于吧,早就大新闻了
morethansean
2021-02-18 12:44:55 +08:00
coolcatha
2021-02-18 12:50:33 +08:00
@morethansean 非常感谢。如果是这样,我也没办法去验证了
ruixue
2021-02-18 13:06:41 +08:00
@coolcatha 通过 ip 段来判断是不是来自 Googlebot 的访问请求

很多 GeoDNS 都用了这些 ip 库,可以针对各个搜索引擎的 Bot 返回单独的解析结果
billlee
2021-02-18 14:49:40 +08:00
ESP
2021-02-18 15:39:54 +08:00
这里还真涉及到 discuz 的两个漏洞
coolcatha
2021-02-18 17:04:20 +08:00
@ESP 能详细说说吗?或者给个关键词哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/753855

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX