bs4——BeautifulSoup模块:解析网页
解析由requests模块请求到的网页
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
'Host':'movie.douban.com'}
link = 'https://movie.douban.com/top250'
r = requests.get(link, headers=headers,timeout=2)
soup = BeautifulSoup(r.text, 'lxml') #以lxml格式解析网页文本
BeautifulSoup模块有两个查找方法:
一个是:find(),返回符合条件的第一条内容
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
'Host':'movie.douban.com'}
link = 'https://movie.douban.com/top250'
r = requests.get(link, headers=headers,timeout=2)
soup = BeautifulSoup(r.text, 'lxml') #以lxml格式解析网页文本
find_result = soup.find('div', class_='hd')
print(find_result)
下面是解析后的结果:
C:\python3.5\python.exe C:/Users/MR/Desktop/test.py
<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港) / 刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>
另一个是:find_all(),以列表格式返回符合条件的所有内容
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
'Host':'movie.douban.com'}
link = 'https://movie.douban.com/top250'
r = requests.get(link, headers=headers,timeout=2)
soup = BeautifulSoup(r.text, 'lxml') #以lxml格式解析网页文本
find_result = soup.find_all('div', class_='hd')
print(find_result)
下面是解析后结果:
注意返回的是列表
C:\python3.5\python.exe C:/Users/MR/Desktop/test.py
[<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港) / 刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291546/">
<span class="title">霸王别姬</span>
<span class="other"> / 再见,我的妾 / Farewell My Concubine</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1295644/">
<span class="title">这个杀手不太冷</span>
<span class="title"> / Léon</span>
<span class="other"> / 杀手莱昂 / 终极追杀令(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292720/">
<span class="title">阿甘正传</span>
<span class="title"> / Forrest Gump</span>
<span class="other"> / 福雷斯特·冈普</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292063/">
<span class="title">美丽人生</span>
<span class="title"> / La vita è bella</span>
<span class="other"> / 一个快乐的传说(港) / Life Is Beautiful</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292722/">
<span class="title">泰坦尼克号</span>
<span class="title"> / Titanic</span>
<span class="other"> / 铁达尼号(港 / 台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291561/">
<span class="title">千与千寻</span>
<span class="title"> / 千と千尋の神隠し</span>
<span class="other"> / 神隐少女(台) / Spirited Away</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1295124/">
<span class="title">辛德勒的名单</span>
<span class="title"> / Schindler's List</span>
<span class="other"> / 舒特拉的名单(港) / 辛德勒名单</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3541415/">
<span class="title">盗梦空间</span>
<span class="title"> / Inception</span>
<span class="other"> / 潜行凶间(港) / 全面启动(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/2131459/">
<span class="title">机器人总动员</span>
<span class="title"> / WALL·E</span>
<span class="other"> / 瓦力(台) / 太空奇兵·威E(港)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3011091/">
<span class="title">忠犬八公的故事</span>
<span class="title"> / Hachi: A Dog's Tale</span>
<span class="other"> / 忠犬小八(台) / 秋田犬八千(港)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3793023/">
<span class="title">三傻大闹宝莱坞</span>
<span class="title"> / 3 Idiots</span>
<span class="other"> / 三个傻瓜(台) / 作死不离3兄弟(港)</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292001/">
<span class="title">海上钢琴师</span>
<span class="title"> / La leggenda del pianista sull'oceano</span>
<span class="other"> / 声光伴我飞(港) / 一九零零的传奇</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291549/">
<span class="title">放牛班的春天</span>
<span class="title"> / Les choristes</span>
<span class="other"> / 歌声伴我心(港) / 唱诗班男孩</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292213/">
<span class="title">大话西游之大圣娶亲</span>
<span class="title"> / 西遊記大結局之仙履奇緣</span>
<span class="other"> / 西游记完结篇仙履奇缘 / 齐天大圣西游记</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292064/">
<span class="title">楚门的世界</span>
<span class="title"> / The Truman Show</span>
<span class="other"> / 真人Show(港) / 真人戏</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291841/">
<span class="title">教父</span>
<span class="title"> / The Godfather</span>
<span class="other"> / Mario Puzo's The Godfather</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1889243/">
<span class="title">星际穿越</span>
<span class="title"> / Interstellar</span>
<span class="other"> / 星际启示录(港) / 星际效应(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291560/">
<span class="title">龙猫</span>
<span class="title"> / となりのトトロ</span>
<span class="other"> / 邻居托托罗 / 邻家的豆豆龙</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/5912992/">
<span class="title">熔炉</span>
<span class="title"> / 도가니</span>
<span class="other"> / 无声呐喊(港) / 漩涡</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1307914/">
<span class="title">无间道</span>
<span class="title"> / 無間道</span>
<span class="other"> / Infernal Affairs / Mou gaan dou</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1849031/">
<span class="title">当幸福来敲门</span>
<span class="title"> / The Pursuit of Happyness</span>
<span class="other"> / 寻找快乐的故事(港) / 追求快乐</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/6786002/">
<span class="title">触不可及</span>
<span class="title"> / Intouchables</span>
<span class="other"> / 闪亮人生(港) / 逆转人生(台)</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3319755/">
<span class="title">怦然心动</span>
<span class="title"> / Flipped</span>
<span class="other"> / 萌动青春 / 青春萌动</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1300267/">
<span class="title">乱世佳人</span>
<span class="title"> / Gone with the Wind</span>
<span class="other"> / 飘</span>
</a>
<span class="playable">[可播放]</span>
</div>]
bs4——BeautifulSoup模块:解析网页的更多相关文章
- Python学习 - 使用BeautifulSoup来解析网页一:基础入门
写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...
- 使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了
BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 那需要怎么使用呢? 首先我们要安装一下这个库 1.pip install beautifulsoup4 ...
- requests和BeautifulSoup模块的使用
用python写爬虫时,有两个很好用第三方模块requests库和beautifulsoup库,简单学习了下模块用法: 1,requests模块 Python标准库中提供了:urllib.urllib ...
- python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录 前言 一.BeautifulSoup的基本语法 二.爬取网页图片 扩展学习 后记 前言 本章同样是解析一个网页的结构信息 在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
- 【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
- 爬虫模块介绍--Beautifulsoup (解析库模块,正则)
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
- 【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...
- 03 解析库之Beautifulsoup模块
Beautifulsoup模块 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 ...
- python BeautifulSoup模块的简要介绍
常用介绍: pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(ht ...
随机推荐
- 零元学Expression Blend 4 - Chapter 18 用实例了解互动控制项「CheckBox」II
原文:零元学Expression Blend 4 - Chapter 18 用实例了解互动控制项「CheckBox」II 延续上一章的CheckBox教学,本章将以实作继续延伸更灵活的运用CheckB ...
- C#跳转语句
1.break 退出直接封闭它的switch.while.do.for或foreach语句. 当有嵌套时,break只退出最里层的语句块. break不能跳出finally语句块. 2.continu ...
- PRML Chapter2
参考文献:PRML2 参数方法和非参数方法 机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型,例如感知器)和非参数方法(基于记忆训练集 ...
- 从Java和JavaScript来学习Haskell和Groovy
直击现场 记得刚接触计算机的时候,我就受到了两个非常巨大的错误观念的影响,这个观念最初是来自于老师的传授还是学长的教诲已经记不清了,但是直到我工作几年以后,才慢慢有了实际的体会: 学习和使用什么编程语 ...
- Qt官方开发环境生成的exe发布方式--使用windeployqt
Qt 官方开发环境使用的动态链接库方式,在发布生成的exe程序时,需要复制一大堆 dll,如果自己去复制dll,很可能丢三落四,导致exe在别的电脑里无法正常运行.因此 Qt 官方开发环境里自带了一个 ...
- epoll模型的探索与实践
我们知道nginx的效率非常高,能处理上万级的并发,其之所以高效离不开epoll的支持, epoll是什么呢?,epoll是IO模型中的一种,属于多路复用IO模型; 到这里你应该想到了,select, ...
- vscode解决同步设置插件连接不上git
vscode有一款比较好用的插件,就是设置同步.可以在一台电脑上同步另一台电脑的所有配置及插件! Settings Sync 但是在公司电脑有个奇葩问题,就是连接不上git. 解决:配置代理 &quo ...
- 长春理工大学第十四届程序设计竞赛(重现赛)B
B Bowling Game 题目链接:https://ac.nowcoder.com/acm/contest/912/B 题目 CUST的队员打完省赛后,小r带着大家去打保龄球. 保龄球是一项难度非 ...
- 找不到’geckodriver’ 的环境path问题“ Message: 'geckodriver' executable needs to be in PATH. ”
运行测试脚本报找不到’geckodriver’ 的环境path 的错误 selenium3.x webdriver/firefox/webdriver.py的init中,executable_pat ...
- 渐进式web应用开发---service worker 原理及介绍(一)
渐进式web应用(progressive Web app) 是现代web应用的一种新形式.它利用了最新的web功能,结合了原生移动应用的独特特性与web的优点,为用户带来了新的体验. 一:传统web端 ...