如何屏蔽各大AI公司爬虫User Agent
罗列各大AI公司Scraper爬虫Crawler使用的User Agent,教您如何在robots.txt里面屏蔽这些爬虫的访问,禁止它们下载您的网站内容以训练 AI 模型,保护数据,降低带宽,防止宕机
GPTBot
GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。
30%的大站屏蔽了它
User-agent: GPTBot
Disallow: /
ChatGPT-User
ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。
10%的大站屏蔽了它
User-agent: ChatGPT-User
Disallow: /
cohere-ai
Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。
1%的大站屏蔽了它
User-agent: cohere-ai
Disallow: /
Google-Extended
Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。
11%的大站屏蔽了它
User-agent: Google-Extended
Disallow: /
CCBot
CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。
13%的大站屏蔽了它
User-agent: CCBot
Disallow: /
Omgilibot
Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。
1%的大站屏蔽了它
User-agent: omgilibot
Disallow: / User-agent: omgili
Disallow: /
FacebookBot
FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。
0%的大站屏蔽了它
User-agent: FacebookBot
Disallow: /
anthropic-ai
anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。
2%的大站屏蔽了它
User-agent: anthropic-ai
Disallow: /
Twitterbot
Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。
11%的大站屏蔽了它
User-agent: Twitterbot
Disallow: /
更多AI公司爬虫User Agent不定时更新
如何屏蔽各大AI公司爬虫User Agent的更多相关文章
- AI时代大点兵-国内外知名AI公司2018年最新盘点
AI时代大点兵-国内外知名AI公司2018年最新盘点 导言 据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家.美国占据1078家居首,中国以592家企业排名第二,其后分别是英国 ...
- 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记
贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...
- 全球百大最有前景AI公司出炉,中国成独角兽最强诞生地
https://new.qq.com/omn/20190210/20190210B0BVK2.html 硅谷最强智库之一的 CB Insights 日前发布 AI 100 2019 报告,在这 100 ...
- 计算机硕士工资一览表 08年最新各大IT公司薪水行
编号:1017时间:2016年6月13日11:26:20功能:计算机硕士工资一览表 08年最新各大IT公司薪水行 URL :http://blog.csdn.net/icerock2000/artic ...
- 大IT公司笔试
都是一些非常非常基础的题,是我最近参加各大IT公司笔试后靠记忆记下来的,经过整理献给与我一样参加各大IT校园招聘的同学们,纯考Java基础功底,老手们就不用进来了,免得笑话我们这些未出校门的孩纸们,但 ...
- 2013应届毕业生各大IT公司待遇整理汇总篇(转)
不管是应届毕业生还是职场中人,在找工作时都必然会对待遇十分关注,而通常都是面试到最后几轮才知道公司给出的待遇.如果我们事先就了解大概行情,那么就会在面试之前进行比较,筛选出几个心仪的公司,这样才能集中 ...
- 世界十大OTA公司盘点
世界十大OTA公司盘点 文/刘照慧(执惠旅游联合创始人,首发百度百家) 全球在线旅游公司(OTA)经过多年发展,已经形成较为成熟的商业模式,各大巨头跑马圈地,格局初现, 这两篇文章就梳理出全球按市值( ...
- 各大IT公司校园招聘程序猿笔试、面试题集锦
转自:http://blog.csdn.net/hackbuteer1/article/details/7959921#t4 百度一面 1.给定一个字符串比如“abcdef”,要求写个函数编程“def ...
- 2013各大IT公司薪资标准
以此鼓励自己 :http://jinhua.19lou.com/forum-874-thread-115901362964023509-1-1.html 以下三个是老大级别的公司 [微软] 研 ...
- AI 公司与比赛
科大讯飞 网站:https://www.iflytek.com/ 比赛:http://challenge.xfyun.cn/2019/ AI 大学:https://www.aidaxue.com/ 华 ...
随机推荐
- Jenkins持续集成入门到精通(入门篇)
1. 什么是持续集成 持续集成(Continuous integration,简称CI)指的是频繁将代码集成到主干.它的目的,就是让产品可以快速迭代,同时保持高质量.核心措施,代码集成到主干之前,必须 ...
- Solution -「CF 1303G」Sum of Prefix Sums
Description Link. 对于一棵树,选出一条链 \((u,v)\),把链上结点从 \(u\) 到 \(v\) 放成一个 长度 \(l\) 的数组,使得 \(\sum_{i=1}^{l}\s ...
- Solution -「洛谷 P5355」「YunoOI 2017」由乃的玉米田
Description Link. 见 Link. Solution 前三个操作就是小清新人渣的本愿. 这里简单讲解一下. 记录两个 bitset cla 和 inv. 我们考虑莫队. cla[x]= ...
- 已发布:Oracle Database 23c 免费版 — 开发人员版!
注:甲骨文云技术公众号文章备份 2023/04/12. 翻译新闻稿. 1.新发布 Oracle Database 23c 免费版 - 开发人员版 在 Oracle CloudWorld 2022 上, ...
- Centos7中防火墙打开3306端口(亲测)
开放3306端口 firewall-cmd --zone=public --add-port=3306/tcp --permanent 开启防火墙 systemctl start firewa ...
- Android_Camera2_ImageReader_onImageAvailable拍照秒退的解决办法
public void onImageAvailable(ImageReader reader) { try{ Image image = reader.acquireLatestImage();// ...
- 面试官:SOA 和微服务的区别?这回终于搞清楚了!
https://developer.aliyun.com/article/839526 简介: 如果我们打开支付宝首页,去看我们的余额,它会展示你的总资产,昨日收益.累计收益等信息.假如这个页面所展示 ...
- [转]深入HBase架构解析
HBase架构讲解非常清晰的一篇文章,转自 http://www.blogjava.net/DLevin/archive/2015/08/22/426877.htmlhttp://www.blogja ...
- langchain中的chat models介绍和使用
简介 之前我们介绍了LLM模式,这种模式是就是文本输入,然后文本输出. chat models是基于LLM模式的更加高级的模式.他的输入和输出是格式化的chat messages. 一起来看看如何在l ...
- Python 利用pandas和matplotlib绘制柱状折线图
创建数据可视化图表:柱状图与折线图结合 在数据分析和展示中,经常需要将数据可视化呈现,以便更直观地理解数据背后的趋势和关联关系.本篇文章将介绍如何使用 Python 中的 Pandas 和 Matpl ...