Python 爬虫 (三)


#对第一章的百度翻译封装的函数进行更新
 1 from urllib import request, parse

 from urllib.error import HTTPError, URLError

 # 保存cookie

 from http import cookiejar

 class session(object):

     def __init__(self):

         cookie_object = cookiejar.CookieJar()

         # handler 对应着一个操作

         handler = request.HTTPCookieProcessor(cookie_object)

         # opener 遇到有cookie的response的时候,

         # 调用handler内部的一个函数, 存储到cookie object

         self.opener = request.build_opener(handler)

     def get(self, url, headers=None):

         return get(url, headers, self.opener)

     def post(self, url, form, headers=None):

         return post(url, form, headers, self.opener)

 #a. get(url, headers=None)

 def get(url, headers=None, opener = None):

     return urlrequests(url, headers=headers, opener = opener)

 def post(url, form, headers=None, opener = None):

     return urlrequests(url, form, headers=headers, opener=opener)

 #b. post(url, form, headers=None)

 #1. 传入url

 #2. user_agent

 #3. headers

 #4. 定义Request

 #5. urlopen

 #6. 返回byte数组

 def urlrequests(url, form=None, headers=None, opener = None):

     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

     # 如果用户需要自行传入headers, 则覆盖之前的headers

     if headers == None:

         headers = {

             'User-Agent': user_agent

         }

     html_bytes = b''

     try:

         if form:

             # POST

             # 2.1 转换成str

             form_str = parse.urlencode(form, encoding='utf-8')

             #print(form_str)

             # 2.2 转换成bytes

             form_bytes = form_str.encode('utf-8')

             req = request.Request(url, data=form_bytes, headers=headers)

         else:

             # GET

             req = request.Request(url, headers=headers)

         if opener:

             response = opener.open(req)

         else:

             response = request.urlopen(req)

         html_bytes = response.read()

     except HTTPError as e:

         print(e)

     except URLError as e:

         print(e)

     return html_bytes

 if __name__ == '__main__':

     # url = 'http://fanyi.baidu.com/sug'

     # form = {

     #     'kw': '呵呵'

     # }

     # html_bytes = post(url, form=form)

     # print(html_bytes)

     url = 'http://www.baidu.com'

     html_byte = get(url)

     print(html_byte)

Python 爬虫 (三)的更多相关文章

Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
python爬虫(三)
Requests模块这个库的标准文档有个极其幽默的地方就是它的中文翻译,我就截取个开头部分,如下图: 是不是很搞笑,在正文中还有许多,管中窥豹,可见一斑.通过我的使用,感觉Requests库的确是给 ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
Python爬虫(三)——开封市58同城出租房决策树构建
决策树框架: # coding=utf-8 import matplotlib.pyplot as plt decisionNode = dict(boxstyle=') leafNode = dic ...
Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析
文化经管 ....略结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的
Python爬虫(四)——开封市58同城数据模型训练与检测
前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建 ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
3.Python爬虫入门三之Urllib和Urllib2库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...

随机推荐

Newtonsoft.Json code
序列化 Product product = new Product(); product.ExpiryDate = new DateTime(2008, 12, 28); JsonSerializer ...
Ubuntu下安装CUDA
cuda check: cuDNN 下载cuDNN后解压更新软链接更新链接库 symbol link 参考链接: http://docs.nvidia.com/cuda/cuda-installa ...
iframe加载顺序导致数据访问出现问题
背景: 一个页面A内有一个iframe,src指向了B页面. 问题: 页面A通过Ajax获取服务器数据,并赋值给了页面A的全局变量gData,页面B要用到页面A的数据gData.那么问题来了当B访问g ...
HTML5新增功能
HTML5日期输入类型(date) 1.HTML5规范里只规定date新型input输入类型 HTML5里的dateinput类型给了给了浏览器实现原生日历的机会,从此之后,JavaScript版的日 ...
贴现率d与利率i
一.复利中的实际利率 it=(1+i)t -(1+i)t-1 / (1+i)t-1=i i 为常数, 而单利的实际利率递减二.贴现时间t的1元在时间零点的价值为贴现函数记为 a-1(t) ...
lua-excel助手
excel是我们工作及生活当中不可或缺的东西,好吧,我是一个游戏程序员,数值哥哥肯定会给我些表格的.回归正题,为什么需要做这个封装? 为什么需要这个项目,因为我们需要使用程序进行自动化操作 VBA我们 ...
HashMap 和 ConcurrentHashMap，Java1.8版本
1. HashMap Entry,一对kv就是一个Entry,还包括一些next指针,用来解决散列冲突. table,内部用来存储Entry的数组,resize时候table会成倍扩容. 容量,tab ...
Microsoft Visual C++ 2005 Redistributable 无法卸载问题解决办法
今日遇到一个问题,Microsoft Visual C++ 2005 Redistributable 无法卸载,弹出的对话框如下所示: 试了一些网上的方法,比如下载vcredist_x86.exe,解 ...
jq仿妙味课堂导航01
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
Redis的Windows端开发连接Linux端以及相应的代码实现
在Windows端开发连接需要进行配置文件的配置: 在redis.conf配置文件中将protected-mode yes,修改为protected-mode no:不保护redis # By de ...

Python 爬虫 (三)

Python 爬虫 (三)的更多相关文章

随机推荐

热门专题