python爬虫添加请求头和请求主体

添加头部信息有两种方法

1.通过添加urllib.request.Request中的headers参数

 #先把要用到的信息放到一个字典中

 headers = {}

 headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) .......'

 headers['......'] = '........'

 #提交的主体信息，可以使用windows的浏览器找出来，以字典的形式写出来

 data = {}

 data['eng'] = ''  #1：英->汉  0:汉->英

 data['validate'] = ''

 data['ignore_trans'] = ''

 #将携带的数据转换成请求方法的对应类型

 reqdata = urllib.parse.urlencode(data).encode('utf-8')

 #生成一个请求报文，这里的url和data需要提前给定

 req = urllib.request.Request(url,reqdata,headers) 

 #使用这个报文去请求网页，这时请求的报文中就带有浏览器标识了

 html = urllib.request.urlopen(req).read()

2.通过urllib.request.Request的add_header方法添加

 #生成请求报文，这里先不加入header参数

 req = urllib.request.Request(url,reqdata)

 #通过返回的请求对象添加header头，这里是个元祖，不是字典

 req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64)')

 #这时再去请求就是带有浏览器标识的报文了

 html = urllib.request.urlopen(req).read()

360翻译示例代码：　

 import urllib.request

 import chardet

 import urllib.parse

 import json

 #请求url路径，这个是360翻译

 url = 'https://fanyi.so.com/index/search?eng=0&validate=&ignore_trans=0&query=%E5%8E%86%E5%8F%B2%0A'

 #这里只写了个浏览器标识

 headers = {}

 headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

 #提交的请求主体信息

 data = {}

 data['eng'] = ''  #1：英->汉  0:汉->英

 data['validate'] = ''

 data['ignore_trans'] = ''

 while True:

     str = input("请输出要翻译的中文（输入q退出）:") #要查询的内容

     if str == 'q':

         break

     else:

         data['query'] = str

     #将携带的数据转换成请求方法的对应类型

     reqdata = urllib.parse.urlencode(data).encode('utf-8')

     #把url、data、header封装成一个请求

     req = urllib.request.Request(url,reqdata,headers)

     #提交请求

     response = urllib.request.urlopen(req)

     #获取返回页面内容

     html = response.read()

     #将返回的页面进行解码，可以使用chardet.detect(html)查看页面编码

     # print(type(html)) 可以这样打印，判断出页面的类型是什么，好进行下一步的转码

     # print(isinstance(html,bytes))

     html = html.decode('ascii')

     #html为json格式，转换成字典类型

     html = json.loads(html)

     #提取出翻译的字段

     translation = html['data']['fanyi']

     print(translation)

python爬虫添加请求头和请求主体的更多相关文章

HTTP 请求头与请求体 - 某熊的全栈之路 - SegmentFault
本文从属于笔者的HTTP 理解与实践系列文章,对于HTTP的学习主要包含HTTP 基础.HTTP 请求头与请求体.HTTP 响应头与状态码.HTTP 缓存这四个部分,而对于HTTP相关的扩展与引申,我 ...
【转载】HTTP 请求头与请求体
原文地址: https://segmentfault.com/a/1190000006689767 HTTP Request HTTP 的请求报文分为三个部分请求行.请求头和请求体,格式如图:一个典 ...
request获取请求头和请求数据
package cn.itcast.request; import java.io.IOException; import java.io.InputStream; import java.io.Pr ...
HttpServletRequest对象，请求行、请求头、请求体
HttpServletRequest 公共接口类HttpServletRequest继承自ServletRequest.客户端浏览器发出的请求被封装成为一个HttpServletRequest对象.对 ...
【Python爬虫技巧】快速格式化请求头Request Headers
你好,我是 @马哥python说 . 我们在写爬虫时,经常遇到这种问题,从目标网站把请求头复制下来,粘贴到爬虫代码里,需要一点一点修改格式,因为复制的是字符串string格式,请求头需要用字典dict ...
Python爬虫：常用的浏览器请求头User-Agent（转）
原文地址:https://blog.csdn.net/mouday/article/details/80182397 user_agent = [ "Mozilla/5.0 (Macinto ...
Python爬虫（二）——发送请求
1. requests库介绍在python中有许多支持发送的库.比如:urlib.requests.selenium.aiohttp--等.但我们当前最常用的还是requests库,这个库是基于 ...
Python爬虫《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python 爬虫 urllib模块发起post请求
urllib模块发起的POST请求案例:爬取百度翻译的翻译结果 1.通过浏览器捉包工具,找到POST请求的url 针对ajax页面请求的所对应url获取,需要用到浏览器的捉包工具.查看百度翻译针对某 ...

随机推荐

Netty源码分析（一）----- NioEventLoopGroup
提到Netty首当其冲被提起的肯定是支持它承受高并发的线程模型,说到线程模型就不得不提到NioEventLoopGroup这个线程池,接下来进入正题. 线程模型首先来看一段Netty的使用示例 pa ...
c# webapi结合swagger的使用
一.使用nuget下载swagger包 Install-Package Swashbuckle 二.配置swagger 1. 安装完Swashbuckle后,nuget会将相关引用添加至WebApi项 ...
POJ 3268 Silver Cow Party 单向最短路
Silver Cow Party Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 22864 Accepted: 1044 ...
Java日志框架总结
1. 前言从写代码开始,就陆陆续续接触到了许多日志框架,较常用的属于LOG4J,LogBack等.每次自己写项目时,就copy前人的代码或网上的demo.配置log4j.properties或者lo ...
内存泄露检测工具Valgrind
内存泄露简介什么是内存泄漏内存泄漏(Memory Leak)是指程序中已动态分配的堆内存由于某种原因,程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果. 内存泄 ...
洛谷 P1091合唱队列
吾王剑之所指,吾等心之所向 ——<Fate/stay night> 题目:https://www.luogu.org/problem/P ...
Python面向对象编程——继承与派生
Python面向对象编程--继承与派生一.初始继承 1.什么是继承继承指的是类与类之间的关系,是一种什么"是"什么的关系,继承的功能之一就是用来解决代码重用问题. 继承是一种创 ...
[大数据学习研究] 4. Zookeeper-分布式服务的协同管理神器
本来这一节想写Hadoop的分布式高可用环境的搭建,写到一半,发现还是有必要先介绍一下ZooKeeper这个东西. ZooKeeper理念介绍 ZooKeeper是为分布式应用来提供协同服务的,而且Z ...
大白话讲解 BitSet
原理 BitSet是位操作的对象,值只有0或1即false和true,内部维护了一个long数组,初始只有一个long,所以BitSet最小的size是64,当随着存储的元素越来越多,BitSet内部 ...
eclipse中xml文件格式化
eclipse中xml文件格式化(ctrl+shift+f),可能会发现格式化xml文件后很乱,如图: 这不是我想要的样子,我想要的是这样的: 解决办法:windows -> Perferenc ...

python爬虫添加请求头和请求主体

python爬虫添加请求头和请求主体的更多相关文章

随机推荐

热门专题