如何屏蔽各大AI公司爬虫User Agent
罗列各大AI公司Scraper爬虫Crawler使用的User Agent,教您如何在robots.txt里面屏蔽这些爬虫的访问,禁止它们下载您的网站内容以训练 AI 模型,保护数据,降低带宽,防止宕机
GPTBot
GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。
30%的大站屏蔽了它
User-agent: GPTBot
Disallow: /
ChatGPT-User
ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。
10%的大站屏蔽了它
User-agent: ChatGPT-User
Disallow: /
cohere-ai
Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。
1%的大站屏蔽了它
User-agent: cohere-ai
Disallow: /
Google-Extended
Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。
11%的大站屏蔽了它
User-agent: Google-Extended
Disallow: /
CCBot
CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。
13%的大站屏蔽了它
User-agent: CCBot
Disallow: /
Omgilibot
Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。
1%的大站屏蔽了它
User-agent: omgilibot
Disallow: / User-agent: omgili
Disallow: /
FacebookBot
FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。
0%的大站屏蔽了它
User-agent: FacebookBot
Disallow: /
anthropic-ai
anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。
2%的大站屏蔽了它
User-agent: anthropic-ai
Disallow: /
Twitterbot
Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。
11%的大站屏蔽了它
User-agent: Twitterbot
Disallow: /
更多AI公司爬虫User Agent不定时更新
如何屏蔽各大AI公司爬虫User Agent的更多相关文章
- AI时代大点兵-国内外知名AI公司2018年最新盘点
AI时代大点兵-国内外知名AI公司2018年最新盘点 导言 据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家.美国占据1078家居首,中国以592家企业排名第二,其后分别是英国 ...
- 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记
贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...
- 全球百大最有前景AI公司出炉,中国成独角兽最强诞生地
https://new.qq.com/omn/20190210/20190210B0BVK2.html 硅谷最强智库之一的 CB Insights 日前发布 AI 100 2019 报告,在这 100 ...
- 计算机硕士工资一览表 08年最新各大IT公司薪水行
编号:1017时间:2016年6月13日11:26:20功能:计算机硕士工资一览表 08年最新各大IT公司薪水行 URL :http://blog.csdn.net/icerock2000/artic ...
- 大IT公司笔试
都是一些非常非常基础的题,是我最近参加各大IT公司笔试后靠记忆记下来的,经过整理献给与我一样参加各大IT校园招聘的同学们,纯考Java基础功底,老手们就不用进来了,免得笑话我们这些未出校门的孩纸们,但 ...
- 2013应届毕业生各大IT公司待遇整理汇总篇(转)
不管是应届毕业生还是职场中人,在找工作时都必然会对待遇十分关注,而通常都是面试到最后几轮才知道公司给出的待遇.如果我们事先就了解大概行情,那么就会在面试之前进行比较,筛选出几个心仪的公司,这样才能集中 ...
- 世界十大OTA公司盘点
世界十大OTA公司盘点 文/刘照慧(执惠旅游联合创始人,首发百度百家) 全球在线旅游公司(OTA)经过多年发展,已经形成较为成熟的商业模式,各大巨头跑马圈地,格局初现, 这两篇文章就梳理出全球按市值( ...
- 各大IT公司校园招聘程序猿笔试、面试题集锦
转自:http://blog.csdn.net/hackbuteer1/article/details/7959921#t4 百度一面 1.给定一个字符串比如“abcdef”,要求写个函数编程“def ...
- 2013各大IT公司薪资标准
以此鼓励自己 :http://jinhua.19lou.com/forum-874-thread-115901362964023509-1-1.html 以下三个是老大级别的公司 [微软] 研 ...
- AI 公司与比赛
科大讯飞 网站:https://www.iflytek.com/ 比赛:http://challenge.xfyun.cn/2019/ AI 大学:https://www.aidaxue.com/ 华 ...
随机推荐
- 【.NET8】访问私有成员新姿势UnsafeAccessor(上)
前言 前几天在.NET性能优化群里面,有群友聊到了.NET8新增的一个特性,这个类叫UnsafeAccessor,有很多群友都不知道这个特性是干嘛的,所以我就想写一篇文章来带大家了解一下这个特性. 其 ...
- 垃圾000000000000000000000写了很多,保存不上,发送失败了。。。。。A
垃圾000000000000000000000写了很多,保存不上,发送失败了.....A垃圾000000000000000000000写了很多,保存不上,发送失败了.....A垃圾0000000000 ...
- Termius for macOS or Windows Download ssh
mac电脑 苹果系统 window 系统 链接 服务器,访问 ecs ,ssh链接 工具 下载地址:http://pgyd.online/?website/53.html Termius for ...
- MMKV源码解读与理解
概述 通过 mmap 技术实现的高性能通用 key-value 组件.同时选用 protobuf 协议,进一步压缩数据存储. 标准 protobuf 不提供增量更新的能力,每次写入都必须全量写入.考虑 ...
- vue之留言板
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- redis主从同步及redis哨兵机制
1.主从和哨兵的作用: 角色 作用 主从 1.(提供)数据副本:多一份数据副本,保证redis高可用 2. 扩展(读)性能:如容量.QPS等 哨兵 1.监控: 监控redis主库及从库运行状态: 2 ...
- 未能添加SSL证书,错误1312
1.win+r打开运行,输入mmc 2.在控制台1[控制台根节点]->文件->添加/删除....->选择证书->添加-选择计算机账户->完成->确认 3.找到证书文 ...
- 宏任务和微任务,同步异步,promis,await执行顺序
本文作为EVENLOOP事件循环的延伸: 执行顺序: ------------循环---------- | | ...
- AB32VG1系列之手把手入门与RTC简单评测
说是评测, 时间仓库仅仅是玩了一下例程而已. 后面有时间打算移植 CoreMark 看看与Cortex-M3的对比. AB32VG1系列之手把手入门与RTC简单评测
- gametime
这道题是动态调试的考点,看了wp才有思路 像这样的游戏题一定要搞清楚他的具体游戏流程才能更好的做出来,然后根据他的思路去改掉相关的判断就可以了 攻防世界逆向高手题之gametime_攻防世界 game ...