爬虫：pycurl模块的使用说明

pycurl参考文档：http://pycurl.io/docs/latest/index.html 是英文文档，看起来也不是特么吃力跟着做问题不大。

#coding=utf-8

import pycurl

import StringIO

"""

简单原则：不要对str使用encode，不要对unicode使用decode (

 s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘) 0

"""

class PySpider():

    def __init__(self):

        self.c = pycurl.Curl()

        self.c.setopt(pycurl.COOKIEFILE, "cookie_file_name")#把cookie保存在该文件中

        self.c.setopt(pycurl.COOKIEJAR, "cookie_file_name")

        #设置跳转

        self.c.setopt(pycurl.FOLLOWLOCATION, 1)  #遇到302时候是否进行自动跳转

        self.c.setopt(pycurl.MAXREDIRS, 5)       #网页最多跳转的次数

        #设置超时

        self.c.setopt(pycurl.CONNECTTIMEOUT,60)  #设置链接超时

        self.c.setopt(pycurl.TIMEOUT,120)        #设置下载超时

        #设置代理 如果有需要请去掉注释，并设置合适的参数

        #c.setopt(pycurl.PROXY, 'http://11.11.11.11:8080')

        #c.setopt(pycurl.PROXYUSERPWD, '’'aaa:aaa')

    #-----------------------------------get函数-----------------------------------#

    def GetData(self, url):

        headers = ['Accept:*/*',

                'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0']

        buf = StringIO.StringIO()

        self.c.setopt(self.c.WRITEFUNCTION, buf.write)

        self.c.setopt(pycurl.URL, url)

        self.c.setopt(self.c.HTTPHEADER,  headers)

        self.c.perform()

        the_page =buf.getvalue()

        charset = re.findall("""charset=([a-zA-Z0-9_\S][^"^>^']*)""",the_page)

        buf.close()

        return the_page,charset

    def PostData(self, url, data):

        headers = ['User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0']

        #写入html

        buf = StringIO.StringIO()

        self.c.setopt(self.c.WRITEFUNCTION, buf.write)

        #设置POST传入数据#是否是post方法，默认是get#post的数据，是字典：个字典:{"key":"value"}

        self.c.setopt(pycurl.POST,1)

        self.c.setopt(pycurl.POSTFIELDS, data) 

        #访问的url

        self.c.setopt(pycurl.URL, url)

        # 传入Headers

        self.c.setopt(pycurl.HEADER, True)

        self.c.setopt(self.c.HTTPHEADER, headers)

        self.c.perform()

        charset = re.findall('charset=([a-zA-Z0-9_\S][^"^>]*)',the_page)

        the_page = buf.getvalue()

        buf.close()

        return the_page,charset

稍微封装了一下，就变成上面这玩意了保存上面代码到Spider.py文件中，用法如下：

from Spider import PySpider

import json

spider = PySpider()

#GET方法

html = spider.GetData('http://www.baidu.com')

print html,charset

#post方法

postdate = json.dumps({

　'cityListName':'gz',

  'trade':'',

})

html = spider.PostData('http://qy.m.58.com/m_entlist/ajax_listinfo/2')

print html

爬虫：pycurl模块的使用说明的更多相关文章

Python 的PyCurl模块使用
PycURl是一个C语言写的libcurl的python绑定库.libcurl 是一个自由的,并且容易使用的用在客户端的 URL 传输库.它的功能很强大,PycURL 是一个非常快速(参考多并发操作) ...
http服务需要pycurl模块这样去监控服务
最近运维还是比较空闲,写篇自己的心得体会.做过运维的应该都做过http服务了.像一些电子商城,或者是一些互联网公司,web的服务之类是至关重要的,近期看了刘天斯大哥的书觉得自己运维平台应该也可以这样去 ...
python关于SSL的认证--pycurl模块使用
今天在做微信支付退款接口的时候,因为需要使用到双向证书的认证,所以一开始是没有头绪的,后来在网上找到了相类似的教程,发现了pycurl模块,才成功实现了证书认证,教程链接:http://blog.cs ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
python pycurl模块
一.pycurl概述 PycURl是一个C语言写的libcurl的python绑定库.libcurl 是一个自由的,并且容易使用的用在客户端的 URL 传输库.它的功能很强大,在PyCURL的主页上介 ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
爬虫 requests模块的其他用法抽屉网线程池回调爬取+保存实例,gihub登陆实例
requests模块的其他用法 #通常我们在发送请求时都需要带上请求头,请求头是将自身伪装成浏览器的关键,常见的有用的请求头如下 Host Referer #大型网站通常都会根据该参数判断请求的来源 ...
爬虫-----selenium模块自动爬取网页资源
selenium介绍与使用 1 selenium介绍什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. sel ...

随机推荐

Filter过滤的2种方式
1.新建一个过滤器,继承ActionFilterAttribute,然后重写 public class DemoFilterAttribute:ActionFilterAttribute { //在A ...
js 父窗体
1.关闭父窗体 window.opener.opener=null;window.opener.close() 2.刷新父窗体 JS刷新父窗口的几种方式浮层内嵌iframe及frame集合窗 ...
xib中的view对iPhone和iPad自适应
1 This worked for me: Make a copy of the .xib in the Finder. Open the copied file in a text edito ...
:nth-child
匹配其父元素下的第N个子或奇偶元素 :eq(index) 匹配选择器指定序列的元素,而这个将为每一个父元素匹配子元素. :nth-child从1开始的,而:eq()是从0算起的!可以使用:<br ...
自定义分词器Analyzer
Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程.这里所说的文本特征,可以是词或者是短语.它主要包括以下四个步骤: 1.分词,将文本解析为单词或短语 2.归一化,将文 ...
MVC5+EF6 入门完整教程11--细说MVC中仓储模式的应用
摘要: 第一阶段1~10篇已经覆盖了MVC开发必要的基本知识. 第二阶段11-20篇将会侧重于专题的讲解,一篇文章解决一个实际问题. 根据园友的反馈, 本篇文章将会先对呼声最高的仓储模式进行讲解. 文 ...
Hibernate的关联映射——单向1-1关联
Hibernate的关联映射--单向1-1关联对于单向的1-1关联关系,需要在持久化类里增加代表关联实体的成员变量,并为该成员变量添加setter方法和getter方法.从持久化类的代码上看,单向1 ...
PHP延迟静态绑定：static关键字
PHP5.3中引入了延迟静态绑定的概念.该特性最明显的标志就是新关键字static.static类似于self,但它指的是被调用的类而不是包含类.在本例中,它的意思是调用Document::creat ...
php中session机制的详解
[补充]session_start()要放在php最前面,header()函数也要放在session_start()之后. [读了下面的文章转载的文章后自己的理解]: 1,通过phpinfo()函数可 ...
consul笔记-集群加入的问题
加入集群的问题 1 只有2个server的时候,一个挂掉,不会选举出新的leader. 2 使用 -bootstrap 可以直接启动为leader,这和-bootstrap-expect 是有区别的 ...

爬虫：pycurl模块的使用说明

爬虫：pycurl模块的使用说明的更多相关文章

随机推荐

热门专题