Python 爬虫笔记
urllib##
python3 与 python2 的urllib很不一样,之前urllib2的方法基本上都变成了python3里的urllib.request模块中
import urllib.request as urq
import urllib.parse as urp
import urllib.error as ure
# 初始化
opener = urq.build_opener()
# 序列化请求参数 urllib.parse.urlencode()
url = "http://localhost"
data = {"username":"dapianzi"}
post_data = urp.urlencode(data).encode('utf-8')
# 设置 header
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
# 构造request对象
request = urq.Request(url, post_data, headers)
# 打开url
try:
res = opener.open(request)
# 从结果对象中获取内容 read(), 返回二进制流
b_str = res.read()
# 解码还原, 编码视网页源代码而定
print(b_str.decode("utf8"))
except ure.HTTPError as e:
print (e.strerror)
unzip
通常网页会用gzip压缩,这时候需要先解压。导入gzip 模块, gzip.decompress(str)
def unzip(data):
try:
data = gzip.decompress(data)
except:
pass
return data
re 正则表达式
re.M 多行模式
re.I 忽略大小写
re.S \s 匹配换行
re.search 搜索
re.match 从开头匹配
re.fandall 匹配所有结果
Beautiful soup
Beautifulsoup 是一个强大的html文档解析模块。使用起来跟css选择器非常像。python3 直接pip install bs4安装,获取网页内容之后:
import bs4
html = "<html>The content you have got</html>"
# 初始化 beautiful soup对象
soup = bs4.BeautifulSoup(html, "html.parser")
# 直接.<标签>可以获取第一个匹配的元素
a = soup.a
print(a.string) # a标签的文本
imgs = soup.select('img') # all imgs
for i in imgs:
src = i['src'] # src属性
id = i['id'] # id属性(假如有的话)
print (src) # 后续操作继续抓取图片内容保存本地..
cookie
设置和保存cookie 需要用到 http.cookiejar 模块。 然后通过 urllib.request.HTTPCookieProcessor 处理器初始化cookie
import http.cookiejar as ckj
import urllib.request as urq
cookie_tmp = "/tmp/cookie.tmp"
cookie = ckj.MozillaCookieJar(cookie_tep)
cookie_handler = urq.HTTPCookieProcessor(cookie)
opener = urq.build_opener(cookie_handler)
res = opener.open(url).read().decode()
# ignore_dicsard 是否覆盖旧的值
# ignore_expires 是否忽略过期cookie
cookie.save(cookie_tmp, ignore_discord=True, ignore_expires=True)
print(res)
print(cookie)
proxy代理
代理ip无论是自由上网还是应对封ip反爬虫策略都非常重要。首先要找一个可以用的代理。我后来想到自己完全可以搭一个http代理服务器,然后就被坑了一下午,这是后话暂且不表。
增加proxy非常简单,就是build_opener的时候多传一个 proxy handler
proxy = {"http" : "x.x.x.x:80"}
proxy_handler = urllib.request.ProxyHandler(proxy)
# 这里如果有多个handle, 一起传进去就行了
opener = urllib.request.build_opener(proxy_handelr, cookie_handler)
# ...
小结
以上掌握了之后就可以开始各种爬虫实践了,至于http认证,在 header 那里带上用户名密码就可以,不再赘述。
Python 爬虫笔记的更多相关文章
- [Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假 来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
- Python爬虫笔记一(来自MOOC) Requests库入门
Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...
- python爬虫笔记Day01
python爬虫笔记第一天 Requests库的安装 先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...
- Python爬虫笔记(一):爬虫基本入门
最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项 ...
- Python爬虫笔记安装篇
目录 爬虫三步 请求库 Requests:阻塞式请求库 Requests是什么 Requests安装 selenium:浏览器自动化测试 selenium安装 PhantomJS:隐藏浏览器窗口 Ph ...
- Python爬虫笔记技术篇
目录 前言 requests出现中文乱码 使用代理 BeautifulSoup的使用 Selenium的使用 基础使用 Selenium获取网页动态数据赋值给BeautifulSoup Seleniu ...
- Python爬虫笔记【一】模拟用户访问之设置请求头 (1)
学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人 ...
- Python爬虫笔记(一)
个人笔记,仅适合个人使用(大部分摘抄自python修行路) 1.爬虫Response的内容 便是所要获取的页面内容,类型可能是HTML,Json(json数据处理链接)字符串,二进制数据(图片或者视频 ...
- Python 爬虫笔记(二)
个人笔记,仅适合个人使用(大部分摘抄自python修行路) 1.使用selenium(传送) selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及 ...
- Python 爬虫笔记、多线程、xml解析、基础笔记(不定时更新)
1 Python学习网址:http://www.runoob.com/python/python-multithreading.html
随机推荐
- ListOperations
RedisOperations<K,V> getOperations() V index(K key, long index) V leftPop(K key) V leftPop( ...
- C++(二)— STL容器的基本用法
1.vector基本操作 关于vector简单的讲就是一个动态增长的数组,里面有一个指针指向一片连续的内存空间,当空间装不下的时候会自动申请一片更大的空间(空间配置器)将原来的数据拷贝到新的空间,然后 ...
- Hibernate学习---第十二节:Hibernate之锁机制&乐观锁实现
1.悲观锁 它指的是对数据被外界修改保持保守态度,因些,在整个数据处理过程中,将数据牌锁定状态.悲观锁的实现,往往依靠数据库提供的锁机制(也只有数据库层的锁机制才能保证数据访问的排他性,否则,即使在本 ...
- Spring Boot -- actuator
Spring Boot有四大神器,分别是auto-configuration.starters.cli.actuator,本文主要讲actuator.actuator是spring boot提供的对应 ...
- spring MVC--配置注解
<context-param> 作用:该元素用来声明应用范围(整个WEB项目)内的上下文初始化参数 param-name 设定上下文的参数名称.必须是唯一名称 param-value 设定 ...
- Python 爬虫 —— 文件及文件夹操作
0. 文件名.路径信息.拓展名等 #取文件后缀 >>> os.path.splitext("/root/a.py") ('/root/a', '.py') #取目 ...
- 【VS】VS开发中遇到的问题的总结
1. VS中经常会出现无法解析的外部符号,还有LINK ERROR 2019等 这类问题如果检查代码没有错误,很大概率就是lib文件错误.调试程序找出问题函数,再找出问题函数使用到的lib文件,在项 ...
- CSS:word-wrap/overflow/transition
一 自动换行:一个div有固定宽高,如果其内容很长,必须两行以上才能显示完整的时候,有两种情况要留意 1 默认如果其内容都是中文,那么内容是可以自适应,而不会溢出div 2 如果内容除了中文之外,还有 ...
- Poj_1008--Maya Calendar
一.Description 上周末,M.A. Ya教授对古老的玛雅有了一个重大发现.从一个古老的节绳(玛雅人用于记事的工具)中,教授发现玛雅人使用了一个一年有365天的叫做Haab的历法.这个Haab ...
- win10系统的简单优化
1.关闭自带杀毒软件Windows Defender操作简要:在gpedit.msc 组策略-计算机管理——>管理模板——>windows组件——>windows defender ...