2bad4u

2bad4u

V2EX 第 567473 号会员,加入于 2021-12-31 14:36:11 +08:00
今日活跃度排名 14567
根据 2bad4u 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
2bad4u 最近回复了
@w568w 我问 GEMINI 2.0 FLASH:

怎么定义重复内容,domain.com/about domain.com/about/ domain.com/about/index.html 是同一个网页,算是重复内容吗

回答:

重复内容 (Duplicate Content) 的定义:

重复内容是指在同一个网站上或跨多个网站上,存在大量完全相同或非常相似的内容。 这里的关键是"大量相同或非常相似"。

domain.com/aboutdomain.com/about/domain.com/about/index.html 是否算作重复内容?

是的,它们 绝对 算作重复内容。

虽然从技术角度来看,它们是不同的 URL ,但以下情况成立:

用户角度: 当用户访问这三个 URL 中的任何一个时,他们都会看到完全相同的内容。

搜索引擎角度: 即使是不同的 URL ,搜索引擎也能识别出这三个 URL 提供的是完全相同的 HTML 代码和文本内容。

正因为如此,搜索引擎会将这三个 URL 视为重复内容。
@w568w google 换了多少次规则了最近两三年的参考价值会高些,10 几年前的规则早换了很多次了
@xloong 你只要有它就会爬,你就算命名为 sitemapss.xml (名称错误,但是存在) 你在整个网站上都没有这个 LINK 它依然会爬取
@w568w 大哥,GEMINI 在这里 https://aistudio.google.com/prompts/new_chat 你问一下它,
domain.com/about
domain.com/about/
domain.com/about/index.html 在 SEO 方面是不是 3 个不同的网址,如何优化。
@w568w 没用的。技术上来说 `domain.com/about` 是一个文档,`domain.com/about/` 是一个目录,技术上只遵循标准而不会遵循某一类用法。而且人家也说了 `不是最佳行为`
@yangzair 如果你有自己的服务器,看过 GOOGLE BOOT 的抓取规则,你就不会这么说了,GOOGLE 真的什么都爬,不仅仅是你 SITEMAP 或者是内链上的 URL ,它自己会爬很多 URL 有点像暴力破解那种
@w568w GEMINI 是免费用的,你问它就是了。验证的话,请问怎么验证 GOOGLE 的规则?
@Pipecraft genimi 说 GOOGLE BOOT 有概率会忽略 canonical
@shuangbiaog 八百年前 GOOGLE 就不爬 SITEMAP 了
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3108 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 13:56 · PVG 21:56 · LAX 06:56 · JFK 09:56
Developed with CodeLauncher
♥ Do have faith in what you're doing.