开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful Soup的过程,第一篇是Beautiful Soup基础知识,后两篇利用前边的Beautiful Soup知识完成一个简单的爬虫,抓取allitebook.com的书籍信息和ISBN码,再根据ISBN码去amazon.com抓取书籍对应的价格。

一、Beautiful Soup简介

网络数据挖掘指的是从网站中获取数据的过程,数据挖掘技术可以让我们从网站世界中收集大量有价值的数据。
Beautiful Soup是一个Python库,可以从HTML或XML文件中获取数据,利用它你可以做很多事情,比如你可以持续解析某个商品的最新价格,以便跟踪价格的波动情况。


二、Beautiful Soup安装(Mac)


安装Beautiful Soup
sudo pip3 install beautifulsoup4
 
检验是否安装成功
from bs4 import BeautifulSoup
三、创建一个Beautiful Soup对象
html_atag = """<html><body><p>Test html a tag example</p>
<a href="http://www. allitebook.com">Home</a>
<a href="http://www.allitebook.com/books">Books</a>
</body>
</html>"""
soup = BeautifulSoup(html_atag, "html5lib")
print(soup.a)
四、查找内容

find()方法
在find()方法中传入节点名,例如ul,这样就可以获取第一个匹配的ul节点的内容,例如:

#input
html_markup = """<div>
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
</div>"""
student_entries = soup.find("ul")
print(student_entries) #output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>

找到ul节点后,通过观察html可以得知,ul下有2个li,每个li下有2个div,则通过student_entries.li可以获取第一个li节点的数据,继续通过student_entries.li.div可以获取第一个li下第一个div的数据,例如:

#input
print(student_entries.li)
#output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li> #input
print(student_entries.li.div)
#output
<div class="name">Carl</div>
继续通过div.string可以获取div的内容:
#input
print(student_entries.li.div.string)
#output
'Carl'
使用正则表达式查找:
find()方法支持根据正则表达式查找内容,例如:
#input
import re
email_id_example ="""<div>The below HTML has the information that has email ids.</div>
abc@example.com
<div>xyz@example.com</div>
<span>foo@example.com</span>"""
soup = BeautifulSoup(email_id_example,"lxml")
emailid_regexp = re.compile("\w+@\w+\.\w+")
first_email_id = soup.find(text=emailid_regexp)
print(first_email_id) #output
abc@example.com
find_all()方法
find()方法返回第一个匹配的内容,find_all()方法会返回所有匹配的内容列表,例如上面的根据正则表达式查找邮箱地址,将find()方法换成find_all()方法,则会返回所有匹配成功的内容:
#input
all_email_id = soup.find_all(text=emailid_regexp)
print(all_email_id) #output
['abc@example.com', 'xyz@example.com', 'foo@example.com']
find_parent()方法
find_parent()方法往上查找内容,例如,从第一个li节点上使用find_parent()方法,可以获取父节点的内容:
#input
print(first_student) #output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li> #input
all_students = first_student.find_parent('ul')
print(all_students) #output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
find_next_sibling()方法
sibling是兄弟姐妹的意思,find_next_sibling()方法获取下一个同级别的兄弟节点,例如:
#input
second_student = first_student.find_next_sibling()
print(second_student) #output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
其它方法还有很多,例如:
find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
用法都差不多,这里不再一一赘述,具体请查看官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree


五、浏览内容


浏览子节点
使用子节点的标签名即可获取子节点的内容,例如:
#input
print(first_student) #output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li> #input
name = first_student.div
print(name) #output
<div class="name">Carl</div>
浏览父节点
使用.parent属性可以浏览父节点,例如:
#input
print(name.parent) #output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
浏览兄弟节点即同级节点,next_sibling和previous_sibling属性分别获取上一个和下一个兄弟节点。例如:
#input
print(first_student.next_sibling) #output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
 


六、修改内容


修改标签的名字
可以通过.name属性获取某个节点的标签名,同样将某个标签名赋值给.name属性可以很轻易改变标签的名称,例如:
#input
first_student
#output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li> #input
first_student.name
#output
'li' #input
first_student.name = 'div'
first_student.name
#output
'div' #input
first_student
#output
<div class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</div>
修改标签的属性
#input
first_student['class'] = 'student_new'
print(first_student)
#output
<div class="student_new">
<div class="name">Carl</div>
<div class="age">32</div>
</div>
注意:如果class属性没有的话,则此操作不会报错,而变为一个新增操作。

删除一个标签的属性
使用del方法可以将一个节点的某个属性删除。例如:
#input
del first_student['class']
print(first_student) #output
<div>
<div class="name">Carl</div>
<div class="age">32</div>
</div>
修改标签的内容
使用.string属性可以获取标签的内容值('Carl'),同样,对此属性的赋值操作也可以更该其值,例如:
#input
print(first_student.div.string) #output
Carl #input
first_student.div.string = 'carl_new'
print(first_student.div.string) #output
carl_new
直接删除某个节点
使用decompose()方法可以直接删除某个节点:
#input
print(first_student)
#output
<li class="student">
<div class="name">carl_new</div>
<div class="age">32</div>
</li> #input
first_student.div.decompose()
print(first_student)
#output
<li class="student">
<div class="age">32</div>
</li>
使用extract()方法同样可以删除某个节点,不过它和decompose()方法不同的是,extract()会返回被删除的这个节点的内容。
 
我们处于大数据时代,对数据处理感兴趣的朋友欢迎查看另一个系列随笔:利用Python进行数据分析 基础系列随笔汇总
 
接下来将利用这篇的Beautiful Soup基础知识完成一个简单的爬虫,分别获取两个网站的书籍信息和价格并组合在一起并输出到csv文件中。有兴趣的朋友欢迎关注本博客,也欢迎大家留言进行讨论。
 
大数据,大数据分析、BeautifulSoup,Beautiful Soup入门,数据挖掘,数据分析,数据处理,pandas,网络爬虫,web scraper

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup的更多相关文章

  1. 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格

    通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...

  2. 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码

    这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...

  3. Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才

    Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才 下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...

  4. Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫

    如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...

  5. Python简单网络爬虫实战—下载论文名称,作者信息(下)

    在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...

  6. 网络爬虫:使用Scrapy框架编写一个抓取书籍信息的爬虫服务

      上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫 系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...

  7. 使用Beautiful Soup编写一个爬虫 系列随笔汇总

    这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识 完成了一个简单的爬虫服务:从all ...

  8. python爬虫之Beautiful Soup基础知识+实例

    python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...

  9. 网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包

    1 引言 在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...

随机推荐

  1. 算法笔记_013:汉诺塔问题(Java递归法和非递归法)

    目录 1 问题描述 2 解决方案  2.1 递归法 2.2 非递归法 1 问题描述 Simulate the movement of the Towers of Hanoi Puzzle; Bonus ...

  2. 微软Azure 经典模式下创建内部负载均衡(ILB)

    微软Azure 经典模式下创建内部负载均衡(ILB) 使用之前一定要注意自己的Azure的模式,老版的为cloud service模式,新版为ARM模式(资源组模式) 本文适用于cloud servi ...

  3. git 命令

    切换仓库地址: git remote set-url origin xxx.git切换分支:git checkout name撤销修改:git checkout -- file删除文件:git rm  ...

  4. [自翻]fasthttp中文文档(持续更新)

    fasthttp是由valyala编写的声称快于Go官方标准库net/http包十倍的快速HTTP实现.从各方的性能测试结果来看(评测一.评测二),fasthttp作为当下最快的http Go语言包当 ...

  5. 基于SignalR实现B/S系统对windows服务运行状态的监测

    通常来讲一个BS项目肯定不止单独的一个BS应用,可能涉及到很多后台服务来支持BS的运行,特别是针对耗时较长的某些任务来说,Windows服务肯定是必不可少的,我们还需要利用B/S与windows服务进 ...

  6. Javacript实现字典结构

    字典是一种用[键,值]形式存储元素的数据结构.也称作映射,ECMAScript6中,原生用Map实现了字典结构. 下面代码是尝试用JS的Object对象来模拟实现一个字典结构. <script& ...

  7. AbpZero--1.如何开始

    1.加群 群号:104390185,下载这个文件并解压 用VS2015打开aspnet-zero-1.9.0.1 2.修改Web项目web.config连接字符串 <add name=" ...

  8. 安卓GreenDao框架一些进阶用法整理

    大致分为以下几个方面: 一些查询指令整理 使用SQL语句进行特殊查询 检测表字段是否存在 数据库升级 数据库表字段赋初始值 一.查询指令整理 1.链式执行的指令 return mDaoSession. ...

  9. 搭建TFS 2015 Build Agent环境(一)

    Download the build agent Downloading the build agent is really simple. Navigate to your TFS control ...

  10. 让 asp.net 在 mac 上飞

    .NET 不跨平台一直饱受争议,虽然微软前端时间放出些消息,要支持.NET跨平台的发展,但是微软一直坚持着不主动.不拒绝.不负责的三不态度,仍然用一种软件帝国的心态,折腾着一些毫无新意的东西.微软想要 ...