【Python开发】python使用urllib2抓取防爬取链接

前几天刚看完《Linux/Unix设计思想》，真是一本不错的书，推荐想提高自己代码质量的童鞋看一下，里面经常提到要以小为美，一个程序做好一件事，短小精悍，因此我也按照这种思想来写python技术点的文章，每个点都是一个函数，可以直接拿来用。

开始了

一般情况下用python的童鞋是不可避免的要写一些爬虫程序的，因此对python中urllib和urllib2都比较熟悉。而最基本的爬取方法就是：

urllib.urlopen(url).read()

大多数网站都不会禁止这样的爬取，但是有些网站都设定了禁止爬虫爬取，当然这样一方面是为了保护内容的版权，另一方面也是为了方式过多的爬虫造成网站流量的白白浪费。恶意爬取某一网站的内容当然是不道德的行为了，这里只讨论技术。

下面的函数通过urllib2来模拟浏览器访问链接爬取内容：

def get_url_content(url):

    i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",\

                 "Referer": 'http://www.baidu.com'}

    req = urllib2.Request(url, headers=i_headers)

    return urllib2.urlopen(req).read()

仅仅是模拟浏览器访问依然是不行的，如果爬取频率过高依然会令人怀疑，那么就需要用到urllib2中的代理设置了，如下：

def get_content_by_proxy(url, proxy):

    opener = urllib2.build_opener(urllib2.ProxyHandler({'http':proxy}), urllib2.HTTPHandler(debuglevel=1))

    urllib2.install_opener(opener)

    i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5", \

					"Referer": 'http://www.baidu.com'}

    req = urllib2.Request(url, headers=i_headers)

    content = urllib2.urlopen(req).read()

    return content

要使用这个函数，当然你得找一些代理服务器了，这些资源网上有很多，关键字：http代理

关于网页抓取的方法其实还有其他的方法，技术是很灵活的东西，就看你怎么用。

【Python开发】python使用urllib2抓取防爬取链接的更多相关文章

python 爬虫004-使用urllib2与正则表达式扒取糗事百科新鲜页首页帖子
面向过程的方式 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 import sys import re import os ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python开发虚拟环境使用virtualenvwrapper的搭建及pycharm链接步骤
virtualenv 是一个创建隔绝的Python环境的工具.virtualenv创建一个包含所有必要的可执行文件的文件夹,用来使用Python工程所需的包.创建的环境是独立的,互不干扰,无需sudo ...
python开发--Python实现延时操作的几种方式
1. time.sleep 2. sched.scheduler 3. threading.Timer 4. 借助其他程序 celery redis延时队列在日常的开发中,往往会遇到这样的需求,需要 ...
python开发--python函数-(持续更新)
1. 打印 : print() # 打印,输出 2. 变量 : var = 'hello' # 变量var , 把'hello' 赋值给变量 var 3. if 函数 : # 代码块 4个空格或者一个 ...
MyEclipse10配置PyDev进行Python开发
MyEclipse10配置PyDev进行Python开发 1.下载PyDev 2.7.1 链接如下: http://jaist.dl.sourceforge.net/project/pydev ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
测试开发Python培训：抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...

随机推荐

进击JavaScript核心 --- （3）面向对象
JS中的对象定义为:无序属性的结合,其属性可以包含基本值.对象或者函数 1.定义对象的方式 (1).Object构造函数 var student = new Object(); student ...
24.stark组件全部
admin组件: 博客里面的图片的是在太难弄了,有大哥会弄给我贴一片博客,我一个一个加太累了,没有加 admin参考:https://www.cnblogs.com/yuanchenqi/articl ...
hihocoder 1457 后缀自动机四·重复旋律7 ( 多串连接处理技巧 )
题目链接分析 : 这道题对于单个串的用 SAM 然后想想怎么维护就行了但是多个串下.可以先将所有的串用一个不在字符集( 这道题的字符集是 '0' ~ '9' ) 链接起来.建立后缀自动机之后在统 ...
zabbix企业微信告警配置教程
前言: zabbix企业微信告警只需要配置一次就可以使用很久了,但是发现再次配置时,总会有遗忘,很麻烦又要去重新熟悉,所以,现在记录一份详细的配置过程,方便日后再次配置. 1.zabbix_serve ...
python用BeautifulSoup解析源码时，去除空格及换行符
一.去除空格 strip() " xyz ".strip() # returns "xyz" " xyz ".lstrip() # ...
Linux配置tomcat开机自启
转自百度经验:https://jingyan.baidu.com/article/6525d4b1382f0aac7d2e9421.html 端口也需要保持开机自启详细请看:https://www.c ...
2016 Multi-University Training Contest 4 部分题解
1001,官方题解是直接dp,首先dp[i]表示到i位置的种类数,它首先应该等于dp[i-1],(假设m是B串的长度)同时,如果(i-m+1)这个位置开始到i这个位置的这一串是和B串相同的,那么dp[ ...
PHP-windows下安装
下载 Apache下载地址:http://httpd.apache.org/download.cgi PHP下载地址:http://php.net/downloads.php 解压解压到安装路径下H ...
vue-loader+webpack配置项目流程
前提:安装了node.js与npm 1.建立一个npm项目新建项目文件夹,打开终端,将路径移动至此文件夹,初始化输入 npm init 按照提示输入项目名称,描述,作者等信息(可回车跳过) 成功创建 ...
库&插件&框架&工具
nodejs 入门 nodejs 入门教程,大家可以在 github 上提交错误 2016 年最好用的表单验证库 SMValidator.js 前端表单验证工具分享浅谈前端线上部署与运维说到前端部 ...

【Python开发】python使用urllib2抓取防爬取链接

【Python开发】python使用urllib2抓取防爬取链接的更多相关文章

随机推荐

热门专题