【Hexo】配置主流搜索引擎收录流程记录
想让网站能够被更多的人阅读,搜索引擎带来的流量必不可少。本文主要介绍如何配置 Hexo 并被主流的搜索引擎(Google、Bing)收录
搜索引擎能搜索到网站的前提是它抓取了网站的内容,并对其建立了索引,其实也就是爬虫爬取 + 插入数据库。虽然大部分搜索引擎都是自动抓取网络上的所有链接,并尝试爬取以及入库,但通常会比较缓慢(毕竟它并不一定知道我们网站的地址hhh)。所以更加推荐由我们站长主动出击,直接告诉它我们的网站地址
延伸阅读:Google 搜索运作方式的基础知识
是否已经被收录
为了查看网站是否已经被收录,可以在 Google 或者 Bing 以下查询格式搜索,根据自己网站的地址对后面的 http(s) 链接进行替换即可
site:https://ywang-wnlo.github.io/

如果能搜索到内容,那么恭喜网站已经被搜索引擎收录。不过为了更好的被收录网站中的内容,还是推荐生成站点地图并提交,来告诉搜索引擎网站中有哪些链接需要被爬取
生成站点地图
站点地图是一种文件,您以在其中提供与网站中的网页、视频或其他文件有关的信息,还可以说明这些内容之间的关系。搜索引擎会读取此文件,以便更高效地抓取您的网站。站点地图会告诉搜索引擎您认为网站中的哪些网页和文件比较重要,还会提供与这些文件有关的重要信息。例如,网页上次更新的时间和网页是否有任何备用的语言版本
Hexo 配置站点地图 sitemap 可以利用 hexo-generator-sitemap 插件,具体的配置过程参见 这里
仅仅生成站点地图还不够,为了更早被收录站点地图中的链接,还需要主动将站点地图提交给搜索引擎
提交站点地图
下面手把手教你如何给 Google 和 Bing 提交站点地图
(由于 GitHub 屏蔽了百度的爬虫,所以在这里不做百度搜索引擎的流程介绍,不过以下内容可以参考)
Google 官网给了详细的文档,可以看这篇 新手入门指南
而对我们来说,主要分三个步骤:注册 Search Console,验证网站所有权,提交站点地图
注册 Search Console
注册的过程非常简单,进入 GSC 官网,用谷歌账号登录即可
验证网站所有权
登录之后,就需要添加我们的网站了

由于个人博客是利用 GitHub Pages 搭建,并没有 DNS 配置的相关权限,因此我们使用第二种方式进行配置,点击 继续 后会有五种方式供我们选择

个人推荐使用第二种,也就是 HTML 标记的方式,因为 NexT 主题的配置中对其进行支持,配置起来比较简单

点击复制,记录下其中的标记信息,例如我们这里复制的原始内容是
<meta name="google-site-verification" content="F3QOKaQRQaSAxN-JLDLGD21CCU5CkZRssZYwX-Mn-Zc" />
所以在 Next 的配置文件中 _config.next.yml 配置如下内容
# Google Webmaster tools verification.
# See: https://developers.google.com/search
google_site_verification: F3QOKaQRQaSAxN-JLDLGD21CCU5CkZRssZYwX-Mn-Zc
之后重新生成网站,并推送到 GitHub,等待 GitHub Pages 生成完毕后,点击 验证 即可
提交站点地图
之前 hexo-generator-sitemap 插件生成的站点地图,会默认放在在根目录下,只需在 GSC 的站点地图页面 填好站点地图的位置,然后点击提交即可

不过和 Bing 不同,Google 的站点地图爬取需要一定的时间,并且由于 GSC 的 bug,会将 等待中 错误的显示为 无法获取,一般需要几天的时间,此时只能耐心等待
Bing
从 GSC 导入

Bing 的流程和前面类似,不过由于已经配置好了 GSC,我们可以选择直接从 GSC 进行导入即可
手动添加网站
如果需要手动添加的话,其实步骤和 Google 也很类似

这里一样推荐使用第二种,也就是 HTML Meta 标记的方式,因为 NexT 主题的配置中对其进行支持,配置起来比较简单
点击复制,记录下其中的标记信息,例如我们这里复制的原始内容是
<meta name="msvalidate.01" content="65AB321A829DD5542989CC078C3ABD9E" />
所以在 Next 的配置文件中 _config.next.yml 配置如下内容
# Bing Webmaster tools verification.
# See: https://www.bing.com/webmasters
bing_site_verification: 65AB321A829DD5542989CC078C3ABD9E
之后重新生成网站,并推送到 GitHub,等待 GitHub Pages 生成完毕后,点击 验证 即可
提交站点地图也,只需在 Bing Webmasters tools 的站点地图页面 填好站点地图的位置,然后点击 提交 即可

Bing 的站点地图爬取一般几分钟就会完成,之后只需静静等待 Bing 给我们网站建立索引即可,一般来说一两天就可以完成整个网站的爬取,这点要比 Google 快不少
手动请求编入索引
根据个人观察,Google 及时获取到站点地图后似乎不会立刻根据站点地图爬取网站,因此推荐再自行进行一次手动请求编入索引
具体流程为:
点击 GSC 的【网址检查】或者直接在顶部输入栏输入网站的根地址(也可以是其他子页面地址)

等待结果返回后,点击【请求编入索引】即可

个人实测,大概需要一个月左右,Google 上就能搜索到网站上的大多数页面了
参考资料
- 【Google】Google 搜索运作方式的基础知识
- 【Google】浏览 Google 搜索文档,改善网站的 SEO 过程
- 【Google】了解站点地图
- 【Google】新手入门指南
- 【个人博客】Hexo 博客站点地图配置(Google)
- 【个人博客】Hexo 博客主流搜索引擎收录详细指南
本文作者: ywang_wnlo
本文链接: https://ywang-wnlo.github.io/posts/abac0c46.html
版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
【Hexo】配置主流搜索引擎收录流程记录的更多相关文章
- github+hexo搭建自己的博客网站(六)进阶配置(搜索引擎收录,优化你的url)
详细的可以查看hexo博客的演示:https://saucxs.github.io/ 绑定了域名: http://www.chengxinsong.cn hexo+github博客网站源码(可以clo ...
- SSL免费证书申请以及nginx配置https流程记录
设置https需要ssl 证书,可以通过FreeSSL[https://freessl.org/]申请. 流程记录: 输入域名,如 http://www.youdias.xin 选择品牌,如Let's ...
- 通过[蜘蛛协议]Robots.txt禁止搜索引擎收录的方法
什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中 ...
- robots.txt禁止搜索引擎收录
禁止搜索引擎收录的方法 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文 ...
- 利用cocoapods管理开源项目,支持 pod install安装整个流程记录(github公有库)
利用cocoapods管理开源项目,支持 pod install安装整个流程记录(github公有库),完成预期的任务,大致有下面几步: 1.代码提交到github平台 2.创建.podspec 3. ...
- CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-总目录
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-总目录: 0.Windows 10本机下载Xshell,以方便往Linux主机上上传大文件 1.CentOS7+CDH5.14.0安 ...
- 通过代码配置 Log4net来实现日志记录
通过代码来创建配置文件,优点看起来更为简洁,不过还得看需求吧,之前我博客也写了一篇通过读取不同的配置文件还实现配置不同日志类型. //记录异常日志数据库连接字符串 private const stri ...
- Css - 利于搜索引擎收录的三个标签
Css - 利于搜索引擎收录的三个标签 <head> <meta charset="utf-8" /> <title>京东(JD.COM)-正品 ...
- Robots.txt 不让搜索引擎收录网站的方法
有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研 ...
- 阿里云服务器Linux系统安装配置ElasticSearch搜索引擎
近几篇ElasticSearch系列: 1.阿里云服务器Linux系统安装配置ElasticSearch搜索引擎 2.Linux系统中ElasticSearch搜索引擎安装配置Head插件 3.Ela ...
随机推荐
- 百度飞桨(PaddlePaddle) - PaddleOCR 文字识别简单使用
百度飞桨(PaddlePaddle)安装 OCR 文字检测(Differentiable Binarization --- DB) OCR的技术路线 PaddleHub 预训练模型的网络结构是 DB ...
- django4 前后端分离和不分离的优缺点
Django4可以采用前后端分离或者不分离两种方式来开发Web应用,它们各有优缺点. 前后端分离的优点: 前后端职责分离:前端负责视图展示.用户交互,后端负责数据处理.逻辑处理,分工明确,开发效率高. ...
- MultiBoot SPI
对于7系列FPGA来说,计算器件启动时间按照以下公式: Config time = Bitstream size / (Config clk freq * Config interface width ...
- TypeError: Cannot read property 'getAttribute' of undefined
今天使用echarts + vue 做 图标,运行时提示vue.runtime.esm.js?2b0e:619 [Vue warn]: Error in mounted hook: "Typ ...
- .NET周报 【5月第4期 2023-05-27】
国内文章 C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地之openai接口平替 https://www.cnblogs.com/gmmy/p/17430613. ...
- kubernetes(k8s)大白学习02:容器和docker基础、使用、架构学习
一.什么是容器 容器简介 简单说:容器(container)就是计算机上的一个沙盒进程,它与计算机上的所有其它进程相隔离. 这种隔离是怎么做到的呢?它利用了内核提供的 namespace 和 cgro ...
- Python Excel 操作 | xlrd+xlwt 模块笔记
Python 的pandas模块使用xlrd作为读取 excel 文件的默认引擎.但是,xlrd在其最新版本(从 2.0.1 版本开始)中删除了对 xls 文件以外的任何文件的支持. xlsx fil ...
- 驱动开发:内核扫描SSDT挂钩状态
在笔者上一篇文章<驱动开发:内核实现SSDT挂钩与摘钩>中介绍了如何对SSDT函数进行Hook挂钩与摘钩的,本章将继续实现一个新功能,如何检测SSDT函数是否挂钩,要实现检测挂钩状态有两种 ...
- OSPF路由控制
实验拓扑 实验需求 公司A使用OSPF路由协议实现公司设备全网互通,后来公司A扩张兼并了公司B,要求将公司B采用的IS-IS路由协议与公司A的OSPF协议互相引入,使得相应部门可以实现互通. Rout ...
- vue3实现H5网页录音并上传(mp3、wav)兼容Android、iOS和PC端
使用 Recorder插件 可以在HTML5网页中进行录音,录音完成后得到blob文件对象,然后将blob上传到服务器:项目使用的vue3.0版本(这个插件同时支持vue2.0.也支持uniapp,很 ...