Nginx反爬虫：禁止某些User Agent抓取网站

问题

之前客户能够正常访问的一个网站这几天访问很慢，甚至有时候还拒绝访问。通过Nginx访问日志排查，发现有大量的请求指向同一个页面，而且访问的客户端IP地址在不断变化且没有太多规律，很难通过限制IP来拒绝访问。但请求的user-agent都带有Bytespider标记，这是一种流氓爬虫。访问日志如下图所示：

解决

解决思路：因为user-agent带有Bytespider爬虫标记，这可以通过Nginx规则来限定流氓爬虫的访问，直接返回403错误。

1、在/etc/nginx/conf.d目录下（因Nginx的安装区别，可能站点配置文件的路径有所不同）新建文件deny_agent.config配置文件：

#forbidden Scrapy

if ($http_user_agent ~* (Scrapy|Curl|HttpClient))

{

    return ;

}

#forbidden UA

if ($http_user_agent ~ "Bytespider|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" )

{

    return ;

}

#forbidden not GET|HEAD|POST method access

if ($request_method !~ ^(GET|HEAD|POST)$)

{

    return ;

}

2、在对应站点配置文件中包含deny_agent.config配置文件（注意是在server里面）：

3、重启Nginx，建议通过nginx -s reload平滑重启的方式。重启之前请先使用nginx -t命令检测配置文件是否正确。

4、通过curl命令模拟访问，看配置是否生效（返回403 Forbidden，则表示配置OK）：

附录：UA收集

FeedDemon             内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy            sql注入

Java                  内容采集

Jullo                 内容采集

Feedly                内容采集

UniversalFeedParser   内容采集

ApacheBench           cc攻击器

Swiftbot              无用爬虫

YandexBot             无用爬虫

AhrefsBot             无用爬虫

YisouSpider           无用爬虫（已被UC神马搜索收购，此蜘蛛可以放开！）

jikeSpider            无用爬虫

MJ12bot               无用爬虫

ZmEu phpmyadmin       漏洞扫描

WinHttp               采集cc攻击

EasouSpider           无用爬虫

HttpClient            tcp攻击

Microsoft URL Control 扫描

YYSpider              无用爬虫

jaunty                wordpress爆破扫描器

oBot                  无用爬虫

Python-urllib         内容采集

Indy Library          扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot           无用爬虫

Nginx反爬虫：禁止某些User Agent抓取网站的更多相关文章

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站
我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots 规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSp ...
nginx安装&负载均衡配置&nginx反爬虫&nginx命令
Nginx安装 wget https://nginx.org/download/nginx-1.14.0.tar.gz tar -zxvf nginx-1.14.0.tar.gz cd nginx-1 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...

随机推荐

AndFix Bug 热修复框架原理及源码解析
作为阿里巴巴开源的 Android 应用热修复工具——AndFix,帮助 Anroid 开发者修复应用的线上问题.Andfix 是 “Android hot-fix” 的缩写. 1.什么是AndFix ...
024 Android 自定义样式对话框(AlertDialog)
1.AlertDialog介绍 AlertDialog并不需要到布局文件中创建,而是在代码中通过构造器(AlertDialog.Builder)来构造标题.图标和按钮等内容的. 常规使用步骤(具体参见 ...
（零）引言——关于effective Java 3th
去年4月份那时候,读过本书的第二版本,那时候寻思着好好读完,但是事与愿违,没有读完! 现在起,寻思着再次开始读吧: 现在第三版也出版了,还有第二版的翻译问题,遂决定读第三版的英文版吧: PDF版本可以 ...
awk简单使用
1.awk格式 awk [ 切割符号 ] ' [ / pattern/ ] 函数语句 ' [ 文件名 ] 2.输出对应列 $0 全部 , $1 第一列 ,$2 第二列 ...... a ...
C++ 中三种继承方式的理解
一.公有继承(public inheritance) 1.概念:当类的继承方式为公有继承时,基类的公有成员和保护成员的访问属性在派生类中不变,而基类的私有成员不可以直接访问. 实验一下: 我们用代 ...
uwsgi flask gevent 测试代码覆盖率（coverage）
目录可能出现的问题解决可能出现的问题多进程启动 gevent启动运行的服务可能不会停止解决我先参考了一下这一篇文章使用Coverage分析WSGI项目的代码覆盖率,他基本能够解决掉1.2 ...
Linux修改主机名方法
[root@lyx ~]# vim /etc/hosts vim代表修改,进入hosts文件进行添加192.168.10.128 hadoop128 [root@lyx ~]# hostname ...
在论坛中出现的比较难的sql问题：36(动态行转列解析json格式字符串)
原文:在论坛中出现的比较难的sql问题:36(动态行转列解析json格式字符串) 所以,觉得有必要记录下来,这样以后再次碰到这类问题,也能从中获取解答的思路.
iis安装ssl证书
在证书控制台下载IIS版本证书,下载到本地的是一个压缩文件,解压后里面包含.pfx文件是证书文件,pfx_password.txt是证书文件的密码. 友情提示: 每次下载都会产生新密码,该密码仅匹配本 ...
webstorm处理代码冲突
出现这个冲突界面后,不要关闭弹窗,不然会把冲突更新下来,也不要点merge. 正确做法:双击文件开始解决冲突!!!!

Nginx反爬虫： 禁止某些User Agent抓取网站

问题

解决

附录：UA收集

Nginx反爬虫： 禁止某些User Agent抓取网站的更多相关文章

随机推荐

热门专题

Nginx反爬虫：禁止某些User Agent抓取网站

Nginx反爬虫：禁止某些User Agent抓取网站的更多相关文章