python爬虫学习—

#获取一个get请求

#import urllib.request

# response = urllib.request.urlopen("http://www.baidu.com")

# print(response.read().decode('utf-8'))   #对获取到的网页源码进行utf-8解码

'''

#获取一个post请求

import urllib.request

import urllib.parse

data = bytes(urllib.parse.urlencode({"hello":"world"}),encoding = "utf-8")

response = urllib.request.urlopen("http://httpbin.org/post",data = data)

print(response.read().decode("utf-8"))

'''

'''

#超时处理

import urllib.request

try:

    response = urllib.request.urlopen("http://httpbin.org/get",timeout=0.01)

    print(response.read().decode("utf-8"))

except urllib.error.URLError as e:

    print("time out!")

'''

'''

#可以获取的数据

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")

# print(response.status)

print(response.getheader("Server"))

'''

'''

#伪装成浏览器

import urllib.request

import urllib.parse

url = "http://httpbin.org/post"

data = bytes(urllib.parse.urlencode({"name":"eric"}),encoding='utf-8')

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50",

    "X-Amzn-Trace-Id": "Root=1-63f48078-2f75544f15e5c54a7b905e25"

}

req = urllib.request.Request(url=url,data=data,headers=headers,method="POST")

response = urllib.request.urlopen(req)

print(response.read().decode("utf-8"))

'''

#伪装浏览器爬取豆瓣

import urllib.request

url = "https://www.douban.com"

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50",

    "X-Amzn-Trace-Id": "Root=1-63f48078-2f75544f15e5c54a7b905e25"

}

req = urllib.request.Request(url=url,headers=headers)

response = urllib.request.urlopen(req)

print(response.read().decode("utf-8"))

python爬虫学习——urllib库的更多相关文章

python爬虫之urllib库（三）
python爬虫之urllib库(三) urllib库访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去 ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...
python爬虫之urllib库（一）
python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...
python爬虫之urllib库介绍
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
Python 爬虫之urllib库的使用
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
python爬虫入门urllib库的使用
urllib库的使用,非常简单. import urllib2 response = urllib2.urlopen("http://www.baidu.com") print r ...
python爬虫之urllib库
请求库 urllib urllib主要分为几个部分 urllib.request 发送请求urllib.error 处理请求过程中出现的异常urllib.parse 处理urlurllib.robot ...
Python爬虫系列-Urllib库详解
Urllib库详解 Python内置的Http请求库: * urllib.request 请求模块 * urllib.error 异常处理模块 * urllib.parse url解析模块 * url ...
爬虫学习--Urllib库基本使用 Day1
一.Urllib库详解 1.什么是Urllib Python内置的HTTP请求库 urllib.request 请求模块(模拟实现传入网址访问) urllib.error ...

随机推荐

SpringBoot集成WebServlet出现自定义单servlet请求失败的问题
一.导言 SpringBoot的真正核心是快速整合以及自动装配,所以在spring家族中springBoot不仅整合了Spring的IOC容器还兼容了WebServlet容器:这使得springBoo ...
网络编程-Netty-writeAndFlush方法原理分析以及 close以后是否还能写入数据？
前言在上一讲网络编程-关闭连接(2)-Java的NIO在关闭socket时,究竟用了哪个系统调用函数?中,我们做了个实验,研究了java nio的close函数究竟调用了哪个系统调用,答案是clos ...
HackTheBox-Linux-Brainfuck
brainfuck 一.攻击流程: 使用nmap进行探测开放端口和服务. sudo nmap --min-rate=1000 -sT -sC -sV [target] 通过上图可以看出,有22端口的s ...
idhttp的socket error # 10054 错误的处理办法
在通过http实现restful数据通讯时,死活出现: socket error # 10054 导致这种情况的原因很复杂. 同样的程序,在不同的环境中出现不同结果. 通过观察,发现登录后获取toke ...
virtualbox怎么设置鼠标在物理机和虚拟机间切换
一.先打开管理,在"全局设定"中选择"热键",会看到如下图所示的内容,默认使用右ctrl键让鼠标离开虚拟机
在MaxKB中实现准确的Chat TO SQL（BI）
主要面向考试成绩管理系统(目前支持旭日图.仪表盘柱状图.桑基图.漏斗图.河流图.数据聚合图.散点图.南丁格尔玫瑰图.饼状图.环形图.堆叠柱状图.堆叠折线图.堆叠面积图.面积图.折线图) 主要思路: 第 ...
MySQL 三层 B+ 树能存多少数据？
MySQL 三层 B+ 树能存多少数据? MySQL 的 B+ 树索引结构广泛用于存储引擎(如 InnoDB)中,用于实现高效的查询.B+ 树的高度和每一层的节点数量直接影响其存储能力.以下是计算三层 ...
Java 中有哪些垃圾回收算法？
Java 中的垃圾回收算法 Java 中的垃圾回收(Garbage Collection,GC)机制通过多种算法实现对堆内存的管理.以下是常见的垃圾回收算法: 1. 标记-清除算法(Mark-Swee ...
kettle介绍-Step之Script Values/Mod(JavaScript 代码) 一
Script Values/Mod JavaScript 代码介绍 JavaScript 代码步骤提供了一个用户界面,用户可以编写 JavaScript 代码到脚本区,脚本区域中的每一行代码都会执行一 ...
hadoop部署安装（一）环境准备
1. 环境准备 1.1防火墙 sed -i "s#SELINUX=enforcing#SELINUX=disabled#g" /etc/selinux/config setenfo ...

python爬虫学习——urllib库

python爬虫学习——urllib库的更多相关文章

随机推荐

热门专题