002 requests的使用方法以及xpath和beautifulsoup4提取数据

1、直接使用url，没用headers的请求

import requests

url = 'http://www.baidu.com'

# requests请求用get方法

response = requests.get(url)

# 返回的content是字节 需要解码

data = response.content.decode()

print(data)

# 而text返回的是字符串类型

data = response.text

print(data)

只有url的代码

2、有headers的GET请求

requests的get参数，headers传入的参数是字典，不用转成字符串

import requests

url = 'http://www.baidu.com'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

# requests请求用get方法

response = requests.get(url, headers=headers)

# 1. 获取请求头

print(response.request.headers)

# 2. 获取相应头

print(response.headers)

# 3. 获取状态码

print(response.status_code)

# 4. 请求的cookie

print(response.request._cookies)

# 5. 相应的cookie

print(response.cookies)

含有headers的代码

而 url = 'http://www.baidu.com/s?wd=你好' 中的汉字会自动转义，不需要调用其他模块

import requests

url = 'http://www.baidu.com/s?wd=你好'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

# requests请求用get方法

response = requests.get(url, headers=headers)

data = response.content.decode()

print(data)

在url后面直接拼接

import requests

url = 'http://www.baidu.com/'

params = {

    'wd': '你好',

}

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

# requests请求用get方法

response = requests.get(url, headers=headers, params=params)

data = response.content.decode()

print(data)

运用params字典类型进行拼接url

import requests

url = 'http://baidu.com'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

params = {

    'wd': '你好'

}

free_proxy = {

    'https': '153.232.156.201:8080',

}

# 加代理IP

response = requests.get(url, headers=headers, params=params, proxies=free_proxy)

data = response.content

print(data.decode())

代理IP

3、有headers的POST请求

import requests

url = 'http://iclass.ncut.edu.cn/iclass/'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

data = {

    'login': '',

    'password': '******',

}

# requests请求用post方法

response = requests.post(url, headers=headers, data=data)

data = response.content

with open('01 登录界面.html', 'wb') as fp:

    fp.write(data)

登录含有cookie的代码

4、使用xpath提取数据

import requests

from lxml import etree

url = 'https://www.qiushibaike.com/text/'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

}

response = requests.get(url, headers=headers)

data = response.content

# 1. 转解析类型

xpath_data = etree.HTML(data)

# 2. 调用xpath的方法

div_list = xpath_data.xpath('//div[@class="col1"]/div')

for div in div_list:

    author = div.xpath('.//div[@class="author clearfix"]/a[2]/h2/text()')[0].strip('\n')

    # 打印作者名

    print(author)

提取作者名的代码

5、使用beautifulsoup提取信息

from bs4 import BeautifulSoup

html_doc = '''

<div id="menu" class="menu-bar menu clearfix" style="margin:0 10px">

<a  href="/" target="_blank" rel="nofollow">热门</a>

<a  href="/hot/" target="_blank">24小时</a>

<a  href="/imgrank/" target="_blank">热图</a>

<a  id="highlight"  href="/text/" target="_blank">文字</a>

<a  href="/history/" target="_blank">穿越</a>

<a  href="/pic/" target="_blank">糗图</a>

<a  href="/textnew/" target="_blank">新鲜</a>

</div>

'''

# 1、转类型

soup = BeautifulSoup(html_doc, 'lxml')

# 2、格式化输出

result = soup.prettify()

# print(result)

# 3、取标签

print(soup.a)

# 4、取文本

print(soup.a.string)

# 5、取属性

print(soup.a['target'])

bu4代码

from bs4 import BeautifulSoup

html_doc = '''

<div id="menu" class="menu-bar menu clearfix" style="margin:0 10px">

<a  href="/" target="_blank" rel="nofollow">热门</a>

<a  href="/hot/" target="_blank">24小时</a>

<a  href="/imgrank/" target="_blank">热图</a>

<a  id="highlight"  href="/text/" target="_blank">文字</a>

<a  href="/history/" target="_blank">穿越</a>

<a  href="/pic/" target="_blank">糗图</a>

<a  href="/textnew/" target="_blank">新鲜</a>

</div>

'''

# 1、转类型

soup = BeautifulSoup(html_doc, 'lxml')

# 2、通用解析方法

# find  返回符合查询条件的第一个标签

print(soup.find(name='a'))

print(soup.find(attrs={"target": '_blank'}))

# find_all  返回list(标签对象)

print(soup.find_all(name='a', limit=3))

# select_one 返回css的选中器

print(soup.select_one('.menu'))

# select 返回的是list

print(soup.select('#highlight'))

print(soup.select('a[target="_blank"]'))

查找标签

6、其他常用知识点

查看response的编码格式

print(page_text.encoding)

002 requests的使用方法以及xpath和beautifulsoup4提取数据的更多相关文章

UI自动化测试（二）浏览器操作及对元素的定位方法（xpath定位和css定位详解）
Selenium下的Webdriver工具支持FireFox(geckodriver). IE(InternetExplorerDriver).Chrome(ChromeDriver). Opera( ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
关于requests的session方法保持cookie的问题。
最近在做爬虫的时候遇到了一个问题,在用requests的session方法保持cookie的时候发现requests不能保持手动构建的cookie.起初以为requests只能自动保持由服务器返回的s ...
关于requests的session方法保持不了cookie的问题。(seesion的意思是保持一个会话，比如登陆后继续操作(记录身份信息) 而requests是单次请求的请求，身份信息不会被记录)
最近在做爬虫的时候遇到了一个问题,在用requests的session方法保持cookie的时候发现requests不能保持手动构建的cookie.起初以为requests只能自动保持由服务器返回的s ...
Xml中SelectSingleNode方法，xpath查找某节点用法
Xml中SelectSingleNode方法,xpath查找某节点用法最常见的XML数据类型有:Element, Attribute,Comment, Text. Element, 指形如<N ...
Requests库主要方法解析以及Requests库入门需要掌握的框架
Requests库主要方法解析以及Requests库入门 1.requests.request(method,url,**kwargs) **kwargs:控制访问的参数,均为可选项 params:字 ...
python中requests库使用方法详解
目录 python中requests库使用方法详解官方文档什么是Requests 安装Requests库基本的GET请求带参数的GET请求解析json 添加headers 基本POST请求 ...
python requests函数封装方法
python requests函数封装方法上代码 import requests import json """ 封装request请求, 1.post:my_pos ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...

随机推荐

Python学习案例之Web版语音合成播报
前言语音合成技术能将用户输入的文字,转换成流畅自然的语音输出,并且可以支持语速.音调.音量设置,打破传统文字式人机交互的方式,让人机沟通更自然. 应用场景将游戏场景中的公告.任务或派单信息通过语音 ...
MVC设计思想
MVC就是按照程序的功能将他们分成三个层,Model层(模型层),View层(显示层),Controller(控制层). Model层:可以细分为两层,分别是dao层.service层,这两层主要功能 ...
python 学习三
list循环删除下标会出错 L = [1,1,1,2,3,4,5]#list是根据下标来取值 #下标0,1,2,3,4,5,6 循环后下标错位输出的结果是[1,2,4],把1也取到了 #l2 = [ ...
tornado之用户验证装饰器
authenticated装饰器为了使用Tornado的认证功能,我们需要对登录用户标记具体的处理函数.我们可以使用@tornado.web.authenticated装饰器完成它.当我们使用这个装 ...
Windows Subsystem for Linux 环境变量
WSL(Windows Subsystem for Linux )的环境变量是包含Linux子系统和Windows系统的,测试如下: wy@WY-PC:/mnt/c/Windows/System32$ ...
Eclipse新建动态页面
作为web小学生,写一下很多人问的基本基本基本问题新建web项目出现一下界面: 明明完成后一直点击next,但不要点击finish 知道出现这个界面(最后一个界面) 打上勾(用来自动生成web.x ...
【UOJ453】【集训队作业2018】围绕着我们的圆环线性基 DP
题目大意有一个 $n\times k$ 的 01矩阵 $C$,求有多少个 $n\times m$ 的矩阵 $A$ 和 $m\times k$ 的矩阵 $B$,满足 \(A\t ...
简单 php 代码跟踪调试实现
简单 php 代码跟踪调试实现 debug_backtrace:生成回溯 debug_print_backtrace:打印回溯 1. debug_backtrace ($options = DEBUG ...
P2522 [HAOI2011]Problem b (莫比乌斯反演)
题目 P2522 [HAOI2011]Problem b 解析: 具体推导过程同P3455 [POI2007]ZAP-Queries 不同的是,这个题求的是\(\sum_{i=a}^b\sum_{j= ...
POJ-2926-Requirements&&Educational Codeforces Round 56G. Multidimensional Queries 【哈夫曼距离】
POJ2926 先学会这个哈夫曼距离的处理才能做 cf 的G #include <iostream> #include <stdio.h> #include <algor ...

002 requests的使用方法以及xpath和beautifulsoup4提取数据

002 requests的使用方法以及xpath和beautifulsoup4提取数据的更多相关文章

随机推荐

热门专题