罗列各大AI公司Scraper爬虫Crawler使用的User Agent,教您如何在robots.txt里面屏蔽这些爬虫的访问,禁止它们下载您的网站内容以训练 AI 模型,保护数据,降低带宽,防止宕机

GPTBot

GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。

30%的大站屏蔽了它

User-agent: GPTBot
Disallow: /

ChatGPT-User

ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。

10%的大站屏蔽了它

User-agent: ChatGPT-User
Disallow: /

cohere-ai

Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。

1%的大站屏蔽了它

User-agent: cohere-ai
Disallow: /

  

Google-Extended

Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。

11%的大站屏蔽了它

User-agent: Google-Extended
Disallow: /

  

CCBot

CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。

13%的大站屏蔽了它

User-agent: CCBot
Disallow: /

Omgilibot

Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。  

1%的大站屏蔽了它

User-agent: omgilibot
Disallow: / User-agent: omgili
Disallow: /

  

FacebookBot

FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。

0%的大站屏蔽了它

User-agent: FacebookBot
Disallow: /

  

anthropic-ai

anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。

2%的大站屏蔽了它

User-agent: anthropic-ai
Disallow: /

Twitterbot

Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。

11%的大站屏蔽了它

User-agent: Twitterbot
Disallow: /

  

  


更多AI公司爬虫User Agent不定时更新

如何屏蔽各大AI公司爬虫User Agent的更多相关文章

  1. AI时代大点兵-国内外知名AI公司2018年最新盘点

    AI时代大点兵-国内外知名AI公司2018年最新盘点 导言 据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家.美国占据1078家居首,中国以592家企业排名第二,其后分别是英国 ...

  2. 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记

    贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...

  3. 全球百大最有前景AI公司出炉,中国成独角兽最强诞生地

    https://new.qq.com/omn/20190210/20190210B0BVK2.html 硅谷最强智库之一的 CB Insights 日前发布 AI 100 2019 报告,在这 100 ...

  4. 计算机硕士工资一览表 08年最新各大IT公司薪水行

    编号:1017时间:2016年6月13日11:26:20功能:计算机硕士工资一览表 08年最新各大IT公司薪水行 URL :http://blog.csdn.net/icerock2000/artic ...

  5. 大IT公司笔试

    都是一些非常非常基础的题,是我最近参加各大IT公司笔试后靠记忆记下来的,经过整理献给与我一样参加各大IT校园招聘的同学们,纯考Java基础功底,老手们就不用进来了,免得笑话我们这些未出校门的孩纸们,但 ...

  6. 2013应届毕业生各大IT公司待遇整理汇总篇(转)

    不管是应届毕业生还是职场中人,在找工作时都必然会对待遇十分关注,而通常都是面试到最后几轮才知道公司给出的待遇.如果我们事先就了解大概行情,那么就会在面试之前进行比较,筛选出几个心仪的公司,这样才能集中 ...

  7. 世界十大OTA公司盘点

    世界十大OTA公司盘点 文/刘照慧(执惠旅游联合创始人,首发百度百家) 全球在线旅游公司(OTA)经过多年发展,已经形成较为成熟的商业模式,各大巨头跑马圈地,格局初现, 这两篇文章就梳理出全球按市值( ...

  8. 各大IT公司校园招聘程序猿笔试、面试题集锦

    转自:http://blog.csdn.net/hackbuteer1/article/details/7959921#t4 百度一面 1.给定一个字符串比如“abcdef”,要求写个函数编程“def ...

  9. 2013各大IT公司薪资标准

    以此鼓励自己 :http://jinhua.19lou.com/forum-874-thread-115901362964023509-1-1.html   以下三个是老大级别的公司   [微软] 研 ...

  10. AI 公司与比赛

    科大讯飞 网站:https://www.iflytek.com/ 比赛:http://challenge.xfyun.cn/2019/ AI 大学:https://www.aidaxue.com/ 华 ...

随机推荐

  1. html页面底部添加版权信息

    话不多说,直接上代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http:/ ...

  2. 命令行获取chrome版本的多个方法

    命令行获取chrome版本的多个方法 基于win10 测试 背景 在selenium的驱动安装中用webdriver_manager自动处理chromedriver是比较好的做法 webdriver_ ...

  3. PLC通过Modbus转Profinet网关连接变频器控制电机案例

    在本案例中,通过使用Modbus转Profinet网关(XD-MDPN100),PLC可以通过Profinet协议与变频器进行通信和控制.这样,PLC可以实现对电机的转速调节.启停控制等功能. 同时, ...

  4. Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?

      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-l ...

  5. CAP项目集成带身份和证书验证的MongoDB

    大家好,我是Edison. 最近,在使用CAP事件总线时,碰到了这样一个需求:微服务采用的是MongoDB,而且还是带身份验证 和 SSL根证书验证的.由于目前网上能找到的资料,都是不带身份验证的Mo ...

  6. 解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus

    LLM Agent中间插个队,总结下指令微调.对齐数据相关的方案,已经凑够7篇论文可以召唤神龙啦!论文都是以优化指令样本为核心,Data-Centric的观点比较一致:指令微调也就是对齐阶段的数据质量 ...

  7. go语言 包依赖管理-构建完整的依赖项目:目录结构及包的调用

    目录结构: <home>/ |-- greetings/ |-- hello/1.分别进入对应目录创建以上目录结构 //bash切换到用户主目录 cd $HOMEPAHT$ //bash新 ...

  8. FFmpeg: How To Convert MP4 Video To MP3 Audio?

       FFmpeg: How To Convert MP4 Video To MP3 Audio? Learn how to Convert an MP4 Video to MP3 Audio wit ...

  9. Chapter 6. Build Script Basics

    Chapter 6. Build Script Basics 6.1. Projects and tasks Everything in Gradle sits on top of two basic ...

  10. 11G手动建库

    ◆◆◆11G手动建库◆设置环境变量export ORACLE_BASE=/u01/app/oracleexport ORACLE_HOME=/u01/app/oracle/product/11.2.4 ...