解析由requests模块请求到的网页

 import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
'Host':'movie.douban.com'}
link = 'https://movie.douban.com/top250'
r = requests.get(link, headers=headers,timeout=2)
soup = BeautifulSoup(r.text, 'lxml') #以lxml格式解析网页文本

BeautifulSoup模块有两个查找方法:

一个是:find(),返回符合条件的第一条内容

 import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
'Host':'movie.douban.com'}
link = 'https://movie.douban.com/top250'
r = requests.get(link, headers=headers,timeout=2)
soup = BeautifulSoup(r.text, 'lxml') #以lxml格式解析网页文本
find_result = soup.find('div', class_='hd')
print(find_result)

下面是解析后的结果:

C:\python3.5\python.exe C:/Users/MR/Desktop/test.py
<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港) / 刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>

另一个是:find_all(),以列表格式返回符合条件的所有内容

 import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
'Host':'movie.douban.com'}
link = 'https://movie.douban.com/top250'
r = requests.get(link, headers=headers,timeout=2)
soup = BeautifulSoup(r.text, 'lxml') #以lxml格式解析网页文本
find_result = soup.find_all('div', class_='hd')
print(find_result)

下面是解析后结果:

  注意返回的是列表

C:\python3.5\python.exe C:/Users/MR/Desktop/test.py
[<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港) / 刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291546/">
<span class="title">霸王别姬</span>
<span class="other"> / 再见,我的妾 / Farewell My Concubine</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1295644/">
<span class="title">这个杀手不太冷</span>
<span class="title"> / Léon</span>
<span class="other"> / 杀手莱昂 / 终极追杀令(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292720/">
<span class="title">阿甘正传</span>
<span class="title"> / Forrest Gump</span>
<span class="other"> / 福雷斯特·冈普</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292063/">
<span class="title">美丽人生</span>
<span class="title"> / La vita è bella</span>
<span class="other"> / 一个快乐的传说(港) / Life Is Beautiful</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292722/">
<span class="title">泰坦尼克号</span>
<span class="title"> / Titanic</span>
<span class="other"> / 铁达尼号(港 / 台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291561/">
<span class="title">千与千寻</span>
<span class="title"> / 千と千尋の神隠し</span>
<span class="other"> / 神隐少女(台) / Spirited Away</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1295124/">
<span class="title">辛德勒的名单</span>
<span class="title"> / Schindler's List</span>
<span class="other"> / 舒特拉的名单(港) / 辛德勒名单</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3541415/">
<span class="title">盗梦空间</span>
<span class="title"> / Inception</span>
<span class="other"> / 潜行凶间(港) / 全面启动(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/2131459/">
<span class="title">机器人总动员</span>
<span class="title"> / WALL·E</span>
<span class="other"> / 瓦力(台) / 太空奇兵·威E(港)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3011091/">
<span class="title">忠犬八公的故事</span>
<span class="title"> / Hachi: A Dog's Tale</span>
<span class="other"> / 忠犬小八(台) / 秋田犬八千(港)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3793023/">
<span class="title">三傻大闹宝莱坞</span>
<span class="title"> / 3 Idiots</span>
<span class="other"> / 三个傻瓜(台) / 作死不离3兄弟(港)</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292001/">
<span class="title">海上钢琴师</span>
<span class="title"> / La leggenda del pianista sull'oceano</span>
<span class="other"> / 声光伴我飞(港) / 一九零零的传奇</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291549/">
<span class="title">放牛班的春天</span>
<span class="title"> / Les choristes</span>
<span class="other"> / 歌声伴我心(港) / 唱诗班男孩</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292213/">
<span class="title">大话西游之大圣娶亲</span>
<span class="title"> / 西遊記大結局之仙履奇緣</span>
<span class="other"> / 西游记完结篇仙履奇缘 / 齐天大圣西游记</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1292064/">
<span class="title">楚门的世界</span>
<span class="title"> / The Truman Show</span>
<span class="other"> / 真人Show(港) / 真人戏</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291841/">
<span class="title">教父</span>
<span class="title"> / The Godfather</span>
<span class="other"> / Mario Puzo's The Godfather</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1889243/">
<span class="title">星际穿越</span>
<span class="title"> / Interstellar</span>
<span class="other"> / 星际启示录(港) / 星际效应(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1291560/">
<span class="title">龙猫</span>
<span class="title"> / となりのトトロ</span>
<span class="other"> / 邻居托托罗 / 邻家的豆豆龙</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/5912992/">
<span class="title">熔炉</span>
<span class="title"> / 도가니</span>
<span class="other"> / 无声呐喊(港) / 漩涡</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1307914/">
<span class="title">无间道</span>
<span class="title"> / 無間道</span>
<span class="other"> / Infernal Affairs / Mou gaan dou</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1849031/">
<span class="title">当幸福来敲门</span>
<span class="title"> / The Pursuit of Happyness</span>
<span class="other"> / 寻找快乐的故事(港) / 追求快乐</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/6786002/">
<span class="title">触不可及</span>
<span class="title"> / Intouchables</span>
<span class="other"> / 闪亮人生(港) / 逆转人生(台)</span>
</a>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/3319755/">
<span class="title">怦然心动</span>
<span class="title"> / Flipped</span>
<span class="other"> / 萌动青春 / 青春萌动</span>
</a>
<span class="playable">[可播放]</span>
</div>, <div class="hd">
<a class="" href="https://movie.douban.com/subject/1300267/">
<span class="title">乱世佳人</span>
<span class="title"> / Gone with the Wind</span>
<span class="other"> / 飘</span>
</a>
<span class="playable">[可播放]</span>
</div>]

bs4——BeautifulSoup模块:解析网页的更多相关文章

  1. Python学习 - 使用BeautifulSoup来解析网页一:基础入门

    写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...

  2. 使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了

    BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 那需要怎么使用呢? 首先我们要安装一下这个库 1.pip install beautifulsoup4 ...

  3. requests和BeautifulSoup模块的使用

    用python写爬虫时,有两个很好用第三方模块requests库和beautifulsoup库,简单学习了下模块用法: 1,requests模块 Python标准库中提供了:urllib.urllib ...

  4. python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]

    目录 前言 一.BeautifulSoup的基本语法 二.爬取网页图片 扩展学习 后记 前言 本章同样是解析一个网页的结构信息 在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...

  5. 【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用

    [爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...

  6. 爬虫模块介绍--Beautifulsoup (解析库模块,正则)

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...

  7. 【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用

    [网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用   1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...

  8. 03 解析库之Beautifulsoup模块

    Beautifulsoup模块   一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 ...

  9. python BeautifulSoup模块的简要介绍

    常用介绍: pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(ht ...

随机推荐

  1. Android零基础入门第20节:CheckBox和RadioButton使用大全

    原文:Android零基础入门第20节:CheckBox和RadioButton使用大全 本期先来学习Button的两个子控件,无论是单选还是复选,在实际开发中都是使用的较多的控件,相信通过本期的学习 ...

  2. 安卓ImageButton圆角按钮设置

    首先图片要做成圆角的,使用美图秀秀,这个不多说. 之后使用设置了圆角的按钮,效果有缺陷,按钮会有灰色的边角. 类似这样: 去掉的方法是将layout的  android:src="@draw ...

  3. 论文阅读计划2(Deep Joint Rain Detection and Removal from a Single Image)

    Deep Joint Rain Detection and Removal from a Single Image[1] 简介:多任务全卷积从单张图片中去除雨迹.本文在现有的模型上,开发了一种多任务深 ...

  4. 浅谈浏览器http的缓存机制 good

    http://www.cnblogs.com/vajoy/p/5341664.html

  5. Tinyhttpd for Windows(500多行)

    TinyHTTPd forWindows 前言 TinyHTTPd是一个开源的简易学习型的HTTP服务器,项目主页在:http://tinyhttpd.sourceforge.NET/,源代码下载:h ...

  6. 第一式、单例模式-Singleton模式(创建型)

    一.简介 单例模式主要用的作用是用于保证程序运行中某个类只有一个实例,并提供一个全局入口点.单例模式(Singleton)为GOF阐述的标准24种设计模式中最简单的一个.但随着时间推移,GOF所阐述的 ...

  7. C# 中使用不安全代码(unsafe、指针)实践

    命题 根据指定的字符集合(字典),按排列组合的规则(允许重复),生成指定长度的所有字符串.如下代码: class Program { static void Main(string[] args) { ...

  8. Linux使用daemontools

    功能: 在使用memcached时候,怕因为一些不可预知的因素导致memcached进程死掉,而又不能及时的发现重启,可以通过daemontools来管理memcached的启动,当memcached ...

  9. 由TreeView 如何触发OnSelectedNodeChanged事件想到的与做到的

    前提是每层的结点上设置了NavigateUrl OnSelectedNodeChanged事件好像失去了作用. 另外TreeView是没有AutoPostBack的!!!! 那么要如何触发OnSele ...

  10. 每日一问:到底为什么属性动画后 View 在新位置还能响应事件

    在 Android 开发中,我们难免会使用动画来处理各种各样的动画效果,以满足 UI 的高逼格设计.对于比较复杂的动画效果,我们通常会采用著名的开源库:lottie-android,或许你会对 lot ...