Google谷歌会使用大量计算机来抓取网络上数十亿的页面, 这个名为 Googlebot 的抓取工具基本上从以前抓取生成的网页 URL 列表开始,然后使用 Google Search Console 中提供的站点地图数据扩充这些页面。 在抓取过程中,Googlebot(也称为“蜘蛛”)会寻找新站点、现有页面的更新以及任何损坏的链接。
我们可以使用Google Search Console提交自己的新网站,它的使用方法可以参考这边文章:如何把网站提交到Google谷歌搜索引擎google search console收录
谷歌通常最终会找到任何有价值的页面并将其编入索引,即使不提交它们也是如此。 但是将的网站提交给 Google 仍然有好处。
Google 通过四个主要步骤查找和索引内容
发现,发现是谷歌了解到您的网站存在的地方。 谷歌从已知页面的站点地图或反向链接中找到大多数网站和页面。
抓取,抓取是称为 Googlebot 的计算机程序(蜘蛛)访问和下载您的页面的地方。
过程,处理是从抓取的页面中提取关键信息并准备索引的地方。
索引,索引是将来自已爬网页面的已处理信息添加到称为搜索索引的大数据库的地方。 这本质上是一个包含数万亿网页的数字图书馆,谷歌从中提取搜索结果。
如果你的站点地图中有新页面,Google 会发现它们并抓取内容,然后可能会根据其对 200 多个标准的评估在搜索结果中列出该页面。
抓取过程完成后,所有结果都会输入到 Google 的索引中,任何新网站或更新的内容都会相应列出。 在处理结果的过程中,Google 会查看您页面上的信息,例如标题标签、元描述、alt 标签等。 如果您的网页上有动态内容,Googlebot 可能无法读取它并会抓取默认版本——建议你针对搜索进行优化。
由于 Google 的抓取,您可能永远不需要提交您的网站,因为它会被自动发现。 这种方法的缺点一直是它依赖于 Google 的时间框架来抓取和索引你的网站内容,这可能不会像你希望的那样快。
想检查特定网站是否已在 Google 中列出? 只需使用“Site:Sitename.com”开始搜索。 例如,这是在 Google 中为 cdsy.xyz 显示的内容: