Python 爬虫 (三)


#对第一章的百度翻译封装的函数进行更新
 1 from urllib import request, parse

 from urllib.error import HTTPError, URLError

 # 保存cookie

 from http import cookiejar

 class session(object):

     def __init__(self):

         cookie_object = cookiejar.CookieJar()

         # handler 对应着一个操作

         handler = request.HTTPCookieProcessor(cookie_object)

         # opener 遇到有cookie的response的时候,

         # 调用handler内部的一个函数, 存储到cookie object

         self.opener = request.build_opener(handler)

     def get(self, url, headers=None):

         return get(url, headers, self.opener)

     def post(self, url, form, headers=None):

         return post(url, form, headers, self.opener)

 #a. get(url, headers=None)

 def get(url, headers=None, opener = None):

     return urlrequests(url, headers=headers, opener = opener)

 def post(url, form, headers=None, opener = None):

     return urlrequests(url, form, headers=headers, opener=opener)

 #b. post(url, form, headers=None)

 #1. 传入url

 #2. user_agent

 #3. headers

 #4. 定义Request

 #5. urlopen

 #6. 返回byte数组

 def urlrequests(url, form=None, headers=None, opener = None):

     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

     # 如果用户需要自行传入headers, 则覆盖之前的headers

     if headers == None:

         headers = {

             'User-Agent': user_agent

         }

     html_bytes = b''

     try:

         if form:

             # POST

             # 2.1 转换成str

             form_str = parse.urlencode(form, encoding='utf-8')

             #print(form_str)

             # 2.2 转换成bytes

             form_bytes = form_str.encode('utf-8')

             req = request.Request(url, data=form_bytes, headers=headers)

         else:

             # GET

             req = request.Request(url, headers=headers)

         if opener:

             response = opener.open(req)

         else:

             response = request.urlopen(req)

         html_bytes = response.read()

     except HTTPError as e:

         print(e)

     except URLError as e:

         print(e)

     return html_bytes

 if __name__ == '__main__':

     # url = 'http://fanyi.baidu.com/sug'

     # form = {

     #     'kw': '呵呵'

     # }

     # html_bytes = post(url, form=form)

     # print(html_bytes)

     url = 'http://www.baidu.com'

     html_byte = get(url)

     print(html_byte)

Python 爬虫 (三)的更多相关文章

Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
python爬虫(三)
Requests模块这个库的标准文档有个极其幽默的地方就是它的中文翻译,我就截取个开头部分,如下图: 是不是很搞笑,在正文中还有许多,管中窥豹,可见一斑.通过我的使用,感觉Requests库的确是给 ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
Python爬虫(三)——开封市58同城出租房决策树构建
决策树框架: # coding=utf-8 import matplotlib.pyplot as plt decisionNode = dict(boxstyle=') leafNode = dic ...
Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析
文化经管 ....略结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的
Python爬虫(四)——开封市58同城数据模型训练与检测
前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建 ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
3.Python爬虫入门三之Urllib和Urllib2库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...

随机推荐

MVC中重定向几种方法
//1.Response.Redirect using System; using System.Collections.Generic; using System.Linq; using Syste ...
【Leetcode】【Medium】3Sum
Given an array S of n integers, are there elements a, b, c in S such that a + b + c = 0? Find all un ...
QT的键值对应关系看完开发节省时间哈哈
http://blog.csdn.net/wangjieest/article/details/8283656
sqoop部署与使用
sqoop安装 1.下载并解压 scp sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz mini1:/root/apps/ tar -zxvf sqoop-1.4 ...
sql语句中where，have，on的区别
一.where和on的区别数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户. 在使用left jion时,on和where条件的区别如下: 1. ...
js call、apply和bind
function add(a,b) { alert(a+b); } function sub(a,b) { alert(a-b); } add.call(sub,3,1); 例1 例子1中的意思就是用 ...
弃坑pexpect，入坑paramiko
上文书说到,ssh库pexpect的使用,简直就是个“月亮公主”——满眼全是坑.勉强把程序写好了,跑起来的时候发现了一个新坑,让我不可抗拒的把它弃掉了——经常莫名其妙的连不上服务器!开线程连接14台服 ...
js算法排序
一.选择算法排序(算法时间复杂度为O(n²)级别) 选择排序就是选择数组中的最小的树,依次排序.第一次选择最小的数放在第一位,第二次从剩余的元素中寻找最小的元素放在第二位,第三次在剩余的数中选择最小的 ...
VC++ MFC SDI/MDI Ribbon程序的停靠窗格被关闭后如何再次显示
VC++ 创建基于MFC的SDI应用程序,Visual Studio风格的主界面如下图所示,在该主界面上的视图菜单下包含有队对各个可停靠窗格显示或隐藏的控制菜单项.而基于Ribbon风格的应用程序,所 ...
Collections.synchronizedList线程安全性陷阱
摘要: 详细的解析:Collections.synchronizedList 1 :关注要点,为什么在有synchroniezed方法的同时会出现 Collections.synchronizedLi ...

Python 爬虫 (三)

Python 爬虫 (三)的更多相关文章

随机推荐

热门专题