Cache-control no-transform Robots Exclusion Protocol

2024-09-08 13:24:44 原文

蜘蛛协议

《今日头条》支持蜘蛛协议（Robots Exclusion Protocol）"ToutiaoSpider"，同时，我们尊重所有的网络媒体，如媒体不希望内容被《今日头条》推荐，请及时邮件至 bd@toutiao.com 邮箱，或在网站页面中根据拒绝蜘蛛协议（Robots Exclusion Protocol）加注拒绝收录的标记，我们将对有异议的内容采取断开链接的做法。

no-transform协议

转码支持的 no-transform 协议为如下两种形式：

1、HTTP Response 中显示声明 Cache-control为no-transform。

2、meta 标签中显示声明 Cache-control 为 no-transform，格式为：

<head>

  <meta http-equiv="Cache-Control" content="no-transform" />

</head>

如果第三方网站不希望页面被今日头条客户端转码，可在页面中添加此协议，当用户进入时，会直接跳转至原网页。

预加载技术

今日头条为了让用户获得更好的体验，使用预加载技术极致提升用户打开文章的速度，使用户进入文章时几乎不用等待，实现“秒开”体验。

所谓预加载，是指用户在打开页面前，会预先加载文章的 html、css、javascript 这几部分内容。一些浏览器厂商为提高网页访问速度也同样使用此技术。比如：搜狗高速浏览器，其宣称的“智能预取，速度革命”，就是如此。

预加载技术特点：

1.预加载只加载文本代码（html、css 和 javascript），不预加载图片。

2.预加载不执行代码（javascript），不影响下游网站的流量统计。

3.广告不进行预加载。

Cache-control no-transform Robots Exclusion Protocol的更多相关文章

Robots Exclusion Protocol简介
当Robot访问一个Web站点时,比如http://www.hello.com/,它先去检查是否存在文件http://www.hello.com/robots.txt.如果这个文件存在,它便会按照这样 ...
[转]ASP.NET Core: Static Files cache control using HTTP Headers
本文转自:https://www.ryadel.com/en/asp-net-core-static-files-cache-control-using-http-headers/ Every sea ...
网站 cache control 最佳实践
推荐阅读: 2020年软件开发趋势高并发案例 - 库存超发问题负载均衡的分类及算法异地多活架构 Postman 的替代品来了有时,当第二次访问网站时,看起来比较怪,样式不正常. 通常,是因为 ...
网站 robots.txt 文件编写
网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...
Robots.txt 协议详解及使用说明
一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”.网站通过Robots协议告诉搜索引擎哪 ...
通过[蜘蛛协议]Robots.txt禁止搜索引擎收录的方法
什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中 ...
Robots协议具体解释
禁止搜索引擎收录的方法(robots.txt) 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自己主动訪问互联网上的网页并获取网页信息.您能够在您的站点中创 ...
Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
robots.txt禁止搜索引擎收录
禁止搜索引擎收录的方法一．什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文 ...

随机推荐

parsley.js验证的基本引用
前段时间看到博客有些parsley.js验证,只是对parsley.js验证框架基本的应用,对parsley.js更深层理解没有介绍和demo 比如:异步请求,扩展验证的写法,我把我学到的parsle ...
solr 6.5.1 linux 环境安装
前言最近在研究搜索引擎,准备搭建一套属于自己的搜索APP,用于搜索的数据我已通过scrapy抓到本地了,现在需要一个搜索引擎来跑这些数据.于是选择了基于Lucene的solr来为我做搜索引擎的工作. ...
mysql数据转sql server
创建一个mysql的ODBC数据源,在sql server中“任务”-“导入数据” -“选择创建的ODBC数据源” 然后填写服务器登录名.密码,需要导入的数据库表什么的
07C语言程序语句
C语言程序语句判断语句 if(表达式) {语句} #include <stdio.h> int main(){ printf("请输入2个数字:"); int a,b ...
oracle查询没有主键的表
select table_name from user_tables a where not exists (select * from user_constraints b where b.cons ...
并查集（Union Find）的基本实现
概念并查集是一种树形的数据结构,用来处理一些不交集的合并及查询问题.主要有两个操作: find:确定元素属于哪一个子集. union:将两个子集合并成同一个集合. 所以并查集能够解决网络中节点的连通 ...
Java之三大基础排序（冒泡、选择、插入）
注:以下排序均为从小到大一.冒泡排序 package com.yunche.testsort; import java.util.Arrays; /** * @ClassName: BubbleSo ...
3D赛瓦号——整装待发！
随着岁末将至,twaver开发团队依旧马不停蹄,3d产品功能持续更新,新特效和功能目不暇接.现在,我们就利用一些新功能,制作一个全新“赛瓦号”飞船,大家看一下仿真程度是否有质的不同? 网页3d技术正在 ...
这份Koa的简易Router手敲指南请收下
上一期链接--也就是本文的基础,参考KOA,5步手写一款粗糙的web框架本文参考仓库:点我 Router其实就是路径匹配,通过匹配路径,返回给用户相应的网站内容. 以下方例子为例,主要通过提取req ...
libevent reference Mannual III--working with events
FYI: http://www.wangafu.net/~nickm/libevent-book/TOC.html Working with events Libevent’s basic unit ...