Python爬虫学习笔记——防豆瓣反爬虫

开始慢慢测试爬虫以后会发现IP老被封，原因应该就是单位时间里面访问次数过多，虽然最简单的方法就是降低访问频率，但是又不想降低访问频率怎么办呢？查了一下最简单的方法就是使用转轮代理IP，网上找了一些方法和免费的代理IP，尝试了一下，可以成功，其中IP代理我使用的是http://www.xicidaili.com/nn/

获取Proxies的代码如下：

 for page in range(1,5):

     IPurl = 'http://www.xicidaili.com/nn/%s' %page

     rIP=requests.get(IPurl,headers=headers)

     IPContent=rIP.text

     soupIP = BeautifulSoup(IPContent,"html5lib")

     trs = soupIP.find_all('tr')

     for tr in trs[1:]:

         tds = tr.find_all('td')

         ip = tds[2].text.strip()

         port = tds[3].text.strip()

         protocol = tds[6].text.strip()

         if protocol == 'HTTP':

             httpResult = 'http://' + ip + ':' + port

         elif protocol =='HTTPS':

             httpsResult = 'https://' + ip + ':' + port

由于Requests是可以直接在访问时候加上proxies的，所以我直接得到的格式使用的是proxies中的格式，requests库文档中，添加代理的格式如下：

import requests

proxies = {

  "http": "http://10.10.1.10:3128",

  "https": "http://10.10.1.10:1080",

}

requests.get("http://example.org", proxies=proxies)

测试可以使用http://www.ip.cn测试访问时的本地IP，代码如下：

 import requests

 from bs4 import BeautifulSoup

 import html5lib

 headers = {

 "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36",

 }

 proxies ={

     "http":'http://122.193.14.102:80',

     "https":"http://120.203.18.33:8123"

 }

 r = requests.get('http://www.ip.cn',headers=headers,proxies=proxies)

 content = r.text

 ip=re.search(r'code.(.*?)..code',content)

 print (ip.group(1))

上面的代理需要根据自己实际可用代理替换。

参考链接：http://docs.python-requests.org/zh_CN/latest/user/advanced.html

http://www.oschina.net/code/snippet_2463131_51169

Python爬虫学习笔记——防豆瓣反爬虫的更多相关文章

python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
爬虫学习之基于Scrapy的爬虫自动登录
###概述在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...
scrapy爬虫学习系列一：scrapy爬虫环境的准备
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Python Click 学习笔记（转）
原文链接:Python Click 学习笔记 Click 是 Flask 的团队 pallets 开发的优秀开源项目,它为命令行工具的开发封装了大量方法,使开发者只需要专注于功能实现.恰好我最近在开发 ...
0003.5-20180422-自动化第四章-python基础学习笔记--脚本
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
Python Flask学习笔记之模板
Python Flask学习笔记之模板 Jinja2模板引擎默认情况下,Flask在程序文件夹中的templates子文件夹中寻找模板.Flask提供的render_template函数把Jinja ...
Python Flask学习笔记之Hello World
Python Flask学习笔记之Hello World 安装virtualenv,配置Flask开发环境 virtualenv 虚拟环境是Python解释器的一个私有副本,在这个环境中可以安装私有包 ...

随机推荐

sql左连接，右连接，内连接
1.sql查询时什么叫左连接和右连接左连接和右连接都是外部连接,也就是区别于内部连接,它对不满足连接条件的行并不是象内部连接一样将数据完全过滤掉,而是保留一部分数据,行数不会减少. 左或 ...
【转发】Linux系统下安装rz/sz命令及使用说明
对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是很多Linux系统初始并没有这两个命令.今天,我们 ...
[流媒体]VLC主要模块
libvlccore vlcthread: vlc线程是libvlccore的重要组成部分,我们在src文件夹下面android.os2.posix.win32等文件夹下包含thread.c文件,说明 ...
poj2250 最长上升子序列 + 输出
//Accepted 208 KB 0 ms //最长公共上升子序列+输出 //dp //输出时用的递归输出,注意条件判断 #include <cstdio> #include <c ...
迪士尼黑科技：爬墙机器人 VertiGo
12 月 30 日,迪士尼研发出的一款爬墙机器人曝光了一段有趣的视频.从视频里可看出这个机器人碰到墙壁时迅速地作出反应爬了上去. 据了解,这个爬墙机器人名叫 VertiGo,由迪士尼研究中心和苏黎世联 ...
int和char的相同和不同。
int和char在存储量上有不同而且在编程的时候,这样才是正确的,如果这样的话,这是一个区别. 第二:这个和上面的道理应该是差不多的.输出97 98. 总的来说,int和char都是一个定义量器的 ...
false等于0？？？
看到一个函数strpos($string,$str),用于在字符串$string中查找$str,如果在$string中查找到$str,则返回第一次出现的位置,起始位置为0:如果$string中不包含$ ...
我与python3擦肩而过（一）—— Dict与collections.OrderredDict邂逅
最近一直在撸Python Data Analysis上的代码(书是基于Python2的,小白我用的python3),所以我下的时候多少有些改动. 这是9.4中的nltk词频分析关于Dict_key的问 ...
Chocolate_DP
Description In 2100, ACM chocolate will be one of the favorite foods in the world. "Green, oran ...
【转】互联网全站HTTPS的时代已经到来
原文地址:http://blog.csdn.net/luocn99/article/details/39777707 前言我目前正在从事HTTPS方面的性能优化工作.在HTTPS项目的开展过程中明显 ...

Python爬虫学习笔记——防豆瓣反爬虫

Python爬虫学习笔记——防豆瓣反爬虫的更多相关文章

随机推荐

热门专题