python爬虫之BeautifulSoup

爬虫有时候写正则表达式会有假死现象

就是正则表达式一直在进行死循环查找

例如：https://social.msdn.microsoft.com/forums/azure/en-us/3f4390ac-11eb-4d67-b946-a73ffb51e4f3/netcpu100

所以一般在解析网页的时候可以用BeautifulSoup库来解决网页的正则表达式

网上对于BeautifulSoup的解释太复杂了

我就只是选取了我爬虫需要的部分来学习，其他的有需要再去学习，没需要就不浪费时间

最起码省心了很多

解释在注释里面都有了

一句一句的打印出来看就会明白的

 #!/usr/bin/python3.4

 # -*- coding: utf-8 -*-

 import urllib.request

 from bs4 import BeautifulSoup

 if __name__ == '__main__':

     url = "http://www.lenggirl.com/"

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

         'Accept': 'text/html;q=0.9,*/*;q=0.8',

         'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

         'Accept-Encoding': 'gzip',

         'Connection': 'close',

         'Referer': None

     }

     data = urllib.request.urlopen(url).read()

     # ('UTF-8')('unicode_escape')('gbk','ignore')

     data = data.decode('UTF-8', 'ignore')

     # 初始化网页

     soup = BeautifulSoup(data, "html.parser")

     # 打印整个网页

     html = soup.prettify()

     # 打印<head>...</head>

     head = soup.head

     # 打印<body>...</body>

     body = soup.body

     # 打印第一个<p>...</p>

     p = soup.p

     # 打印p的内容

     p_string = soup.p.string

     # soup.p.contents[0]为Aug 22, 2016

     # soup.p.contents为[' Aug 22, 2016\n                        ']

     p_string = soup.p.contents[0]

     # 将body里面的所有头打印出来

     for child in soup.body.children:

         #print(child)

         pass

     # 将所有的<a>...</a>和<p>...</p>打印出来

     a_and_p = soup.find_all(["a","p"])

     # 找到<a>...</a>下所有的网址

     for myimg in soup.find_all('a'):

         img_src = myimg.get('href')

         #print(img_src)

     # 找到<a>...</a>下类为class_='a'下面的<img>...</img>里面的src

     for myimg in soup.find_all('a', class_='a'):

         img_src = myimg.find('img').get('src')

     # 网页所有信息

     #print(html)

python爬虫之BeautifulSoup的更多相关文章

使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
Python爬虫系列-BeautifulSoup详解
安装 pip3 install beautifulsoup4 解析库解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup,'html,parser') Pyth ...
Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. req ...
通过哪吒动漫豆瓣影评，带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】
久旱逢甘霖西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...
python爬虫入门--beautifulsoup
1,beautifulsoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 2, from bs4 import Be ...

随机推荐

iOS提交AppStore被拒原因
1. Terms and conditions(法律与条款) 1.1 As a developer of applications for the App Store you are bound by ...
Windows 2008 R2防火墙，允许被ping
netsh firewall set icmpsetting 8 1. 准备 1) 原因出于安全因素考虑,在Windows 2008 R2上是不允许从外部对其Ping ...
CentOS 7.0 安装go 1.3.1
1.下载go安装包 golang中国上下载 2. 解压 tar -zxf go1.3.1.linux-amd64.tar.gz -C /usr/local/ 3. 修改 etc/profile 文件在 ...
Linux TC (traffic control)
在着手学习TC采用如下单位来描述带宽: mbps = 1024 kbps = 1024 * 1024 bps => byte/s mbit = 1024 kbit => kilo bit/ ...
iOS学习笔记---c语言第十天
动态内存分配一.存储区划分从低到高(内存地址小----内存地址大) : 代码区---常量区---静态区---堆区---栈区栈内存 //凡是在函数体内定义的变量都存储在栈区(包括形参). ; ...
ZOJ 1042 W’s Cipher
原题链接题目大意:按照规则解码.26个字母分成三组,每一组按照顺时针移位编码.现在已知移动的位数,要求解码. 解法:以前看过一本古典密码学的书,百度贴吧密码吧也有很多经典的加密方法,想什么凯撒移位. ...
让超链接点击后不跳转,可以用href = "#"，但是这个#就会锚点到页面最上边点击链接后不跳转可以设置成
让超链接点击后不跳转,可以用href = "#",但是这个#就会锚点到页面最上边点击链接后不跳转可以设置成 1.<a href="javascri ...
Mysql 下 Insert、Update、Delete、Order By、Group By注入
Insert: 语法:INSERT INTO table_name (列1, 列2,...) VALUES (值1, 值2,....) 报错注入: insert into test(id,name,p ...
ListView优化相关
链接1 http://www.jb51.net/article/35273.htm 链接2 http://www.cnblogs.com/xilinch/archive/2012/11/08/2760 ...
ubuntu14.04 ibus pinyin wrong (ibus拼音乱拼问题)
在ubuntu14.04版的中文输入法ibus中,有时会出现拼音乱拼的问题.不过已经有了成熟的解决方案. 具体方法如下: apt-get remove ibus-pinyin apt-get inst ...

python爬虫之BeautifulSoup

python爬虫之BeautifulSoup的更多相关文章

随机推荐

热门专题