爬虫-day02-抓取和分析

###页面抓取###

1、urllib3

    是一个功能强大且好用的HTTP客户端，弥补了Python标准库中的不足

    安装： pip install urllib3

    使用：

import urllib3

http = urllib3.PoolManager()

response = http.request('GET', 'http://news.qq.com')

print(response.headers)

result = response.data.decode('gbk')

print(result)

发送HTTPS协议的请求

安装依赖 ： pip install certifi

import  certifi

import urllib3

http = urllib3.PoolManager(cert_reqs = 'CERT_REQUIRED', ca_certs = certifi.where()) #添加证书

resp = http.request('GET', 'http://news.baidu.com/')

print(resp.data.decode('utf-8'))

####带上参数

import urllib3

from urllib.parse import urlencode

http = urllib3.PoolManager()

args = {'wd' : '人民币'}

# url = 'http://www.baidu.com/s?%s' % (args)

url = 'http://www.baidu.com/s?%s' % (urlencode(args))

print(url)

# resp = http.request('GET' , url)

# print(resp.data.decode('utf-8'))

headers = {

    'Accept' : 'text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, **; q=0.01',

    'Accept-Encoding' : 'gzip, deflate, br',

    'Accept-Language' : 'zh-CN,zh;q=0.9',

    'Connection' : 'keep-alive',

    'Host' : 'www.baidu.com',

    'Referer' : 'https://www.baidu.com/s?wd=人民币',

    'User-Agent' : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

}

resp8 = requests.get(url8, fields=args8, headers=headers8)

print(resp8.text)

爬虫-day02-抓取和分析的更多相关文章

Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
NetCloud——一个网易云音乐评论抓取和分析的Python库
在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理 ...
Scrapy实战篇（八）之爬取教育部高校名单抓取和分析
本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单. 思路: 1.首先以上面的地址开始链接,抓取到下面省份对应的链接. 2.在解 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
PHP抓取及分析网页的方法详解
本文实例讲述了PHP抓取及分析网页的方法.分享给大家供大家参考,具体如下: 抓取和分析一个文件是非常简单的事.这个教程将通过一个例子带领你一步一步地去实现它.让我们开始吧! 首先,我首必须决定我们将抓 ...
SNMP报文抓取与分析(二)
SNMP报文抓取与分析(二) SNMP报文抓取与分析(二) 1.SNMP报文表示简介基本编码规则BER 标识域Tag表示长度域length表示 2.SNMP报文详细分析(以一个get-respon ...
SNMP报文抓取与分析(一)
SNMP报文抓取与分析(一) 1.抓取SNMP报文 SNMP报文的形式大致如下图所示我们这里使用netcat这个工具来抓取snmp的PDU(协议数据单元).(因为我们并不需要前面的IP和UDP首部) ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...
C#抓取和分析网页的类
抓取和分析网页的类. 主要功能有: Ontology 1.提取网页的纯文本,去所有html标签和javascript代码 2.提取网页的链接,包括href和frame及iframe 3.提取网页的ti ...
【JAVA系列】Google爬虫如何抓取JavaScript的？
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...

随机推荐

2019-04-18-day035-守护线程与池
内容回顾互斥锁在同一个进程中连续锁两次以上会死锁进程的数据共享进程之间可以共享数据提供共享数据的类是Manager 但是他提供的list\dict这些数据类型是数据不安全的针对 += -= ...
AOP的第一个小坑
今天看项目源码,看到Service类继承了一个SelfProxy类,这个类实现了一个叫self()的方法,用于返回动态代理生成的实例. 为什么要返回实例呢,因为有的时候类内部需要调用自身的public ...
ES5数组、对象常用方法总结
数组方法: Array.isArray(items);判断判断一个变量是否包含数组数据: forEach(function(value, index, fullArray){ }); every(fu ...
学习Markdown
目录杂标题代码展示额外空行强调 [转载请注明出处]http://www.cnblogs.com/mashiqi 2018/01/02 杂 Markdown是承接着html语言的,它兼容htm ...
android ui更新
UI只能在主线程中更新. Handler 首先在主线程中创建handler,这样handler是附件到主线程UI中. Handler normalHandler = new Handler() { @ ...
固态硬盘Ghost安装Windows 10无法引导的问题
机器配置如下: 电脑型号技嘉 B360M POWER 台式电脑操作系统 Windows 10 64位 ( DirectX 12 ) 处理器英特尔 Core i7-8700 @ 3.20GHz 六 ...
CF867E： Buy Low Sell High（贪心， STL）（hdu6438）
Description 有nn个城市,第ii个城市商品价格为aiai,从11城市出发依次经过这nn个城市到达n n城市,在每个城市可以把手头商品出售也可以至多买一个商品,问最大收益. Input 第 ...
SqlSugar ORM 的学习
http://www.codeisbug.com/Doc/8/1163 https://www.cnblogs.com/sunkaixuan/p/6082664.html
html5 知识点简单总结03
table表格 ----基本结构 table默认无边框(border) <table border="数值"> <tr> <th>表头</ ...
在VMware上安装CentOS6 64位操作系统
---恢复内容开始--- 1.创建新的虚拟机 2.选择自定义,点击下一步: 3.找到镜像位置,添加: 4.点击“稍后安装操作系统”,点击“下一步”: 5.默认点击“下一步”,然后分配CPU: 这里内存 ...

爬虫-day02-抓取和分析

爬虫-day02-抓取和分析的更多相关文章

随机推荐

热门专题