网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

开始学习网络数据挖掘方面的知识，首先从Beautiful Soup入手（Beautiful Soup是一个Python库，功能是从HTML和XML中解析数据），打算以三篇博文纪录学习Beautiful Soup的过程，第一篇是Beautiful Soup基础知识，后两篇利用前边的Beautiful Soup知识完成一个简单的爬虫，抓取allitebook.com的书籍信息和ISBN码，再根据ISBN码去amazon.com抓取书籍对应的价格。

一、Beautiful Soup简介

网络数据挖掘指的是从网站中获取数据的过程，数据挖掘技术可以让我们从网站世界中收集大量有价值的数据。

Beautiful Soup是一个Python库，可以从HTML或XML文件中获取数据，利用它你可以做很多事情，比如你可以持续解析某个商品的最新价格，以便跟踪价格的波动情况。

二、Beautiful Soup安装（Mac）

安装Beautiful Soup

sudo pip3 install beautifulsoup4

检验是否安装成功

from bs4 import BeautifulSoup

三、创建一个Beautiful Soup对象

html_atag = """<html><body><p>Test html a tag example</p>

<a href="http://www. allitebook.com">Home</a>

<a href="http://www.allitebook.com/books">Books</a>

</body>

</html>"""

soup = BeautifulSoup(html_atag, "html5lib")

print(soup.a)

四、查找内容

find()方法

在find()方法中传入节点名，例如ul，这样就可以获取第一个匹配的ul节点的内容，例如：

#input

html_markup = """<div>

<ul id="students">

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

<li class="student">

<div class="name">Lucy</div>

<div class="age">25</div>

</li>

</ul>

</div>"""

student_entries = soup.find("ul")

print(student_entries)

#output

<ul id="students">

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

<li class="student">

<div class="name">Lucy</div>

<div class="age">25</div>

</li>

</ul>

找到ul节点后，通过观察html可以得知，ul下有2个li，每个li下有2个div，则通过student_entries.li可以获取第一个li节点的数据，继续通过student_entries.li.div可以获取第一个li下第一个div的数据，例如：

#input

print(student_entries.li)

#output

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

#input

print(student_entries.li.div)

#output

<div class="name">Carl</div>

继续通过div.string可以获取div的内容：

#input

print(student_entries.li.div.string)

#output

'Carl'

使用正则表达式查找：

find()方法支持根据正则表达式查找内容，例如：

#input

import re

email_id_example ="""<div>The below HTML has the information that has email ids.</div>

abc@example.com

<div>xyz@example.com</div>

<span>foo@example.com</span>"""

soup = BeautifulSoup(email_id_example,"lxml")

emailid_regexp = re.compile("\w+@\w+\.\w+")

first_email_id = soup.find(text=emailid_regexp)

print(first_email_id)

#output

abc@example.com

find_all()方法

find()方法返回第一个匹配的内容，find_all()方法会返回所有匹配的内容列表，例如上面的根据正则表达式查找邮箱地址，将find()方法换成find_all()方法，则会返回所有匹配成功的内容：

#input

all_email_id = soup.find_all(text=emailid_regexp)

print(all_email_id)

#output

['abc@example.com', 'xyz@example.com', 'foo@example.com']

find_parent()方法

find_parent()方法往上查找内容，例如，从第一个li节点上使用find_parent()方法，可以获取父节点的内容：

#input

print(first_student)

#output

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

#input

all_students = first_student.find_parent('ul')

print(all_students)

#output

<ul id="students">

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

<li class="student">

<div class="name">Lucy</div>

<div class="age">25</div>

</li>

</ul>

find_next_sibling()方法

sibling是兄弟姐妹的意思，find_next_sibling()方法获取下一个同级别的兄弟节点，例如：

#input

second_student = first_student.find_next_sibling()

print(second_student)

#output

<li class="student">

<div class="name">Lucy</div>

<div class="age">25</div>

</li>

其它方法还有很多，例如：

find_next()方法

find_all_next()方法

find_previous_sibling()方法

find_all_previous()方法

用法都差不多，这里不再一一赘述，具体请查看官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

五、浏览内容

浏览子节点

使用子节点的标签名即可获取子节点的内容，例如：

#input

print(first_student)

#output

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

#input

name = first_student.div

print(name)

#output

<div class="name">Carl</div>

浏览父节点

使用.parent属性可以浏览父节点，例如：

#input

print(name.parent)

#output

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

浏览兄弟节点即同级节点，next_sibling和previous_sibling属性分别获取上一个和下一个兄弟节点。例如：

#input

print(first_student.next_sibling)

#output

<li class="student">

<div class="name">Lucy</div>

<div class="age">25</div>

</li>

和浏览相关的完整方法列表请查看：https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-the-tree

六、修改内容

修改标签的名字

可以通过.name属性获取某个节点的标签名，同样将某个标签名赋值给.name属性可以很轻易改变标签的名称，例如：

#input

first_student

#output

<li class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</li>

#input

first_student.name

#output

'li'

#input

first_student.name = 'div'

first_student.name

#output

'div'

#input

first_student

#output

<div class="student">

<div class="name">Carl</div>

<div class="age">32</div>

</div>

修改标签的属性

#input

first_student['class'] = 'student_new'

print(first_student)

#output

<div class="student_new">

<div class="name">Carl</div>

<div class="age">32</div>

</div>

注意：如果class属性没有的话，则此操作不会报错，而变为一个新增操作。

删除一个标签的属性

使用del方法可以将一个节点的某个属性删除。例如：

#input

del first_student['class']

print(first_student)

#output

<div>

<div class="name">Carl</div>

<div class="age">32</div>

</div>

修改标签的内容

使用.string属性可以获取标签的内容值('Carl')，同样，对此属性的赋值操作也可以更该其值，例如：

#input

print(first_student.div.string)

#output

Carl

#input

first_student.div.string = 'carl_new'

print(first_student.div.string)

#output

carl_new

直接删除某个节点

使用decompose()方法可以直接删除某个节点：

#input

print(first_student)

#output

<li class="student">

<div class="name">carl_new</div>

<div class="age">32</div>

</li>

#input

first_student.div.decompose()

print(first_student)

#output

<li class="student">

<div class="age">32</div>

</li>

使用extract()方法同样可以删除某个节点，不过它和decompose()方法不同的是，extract()会返回被删除的这个节点的内容。

我们处于大数据时代，对数据处理感兴趣的朋友欢迎查看另一个系列随笔：利用Python进行数据分析基础系列随笔汇总

接下来将利用这篇的Beautiful Soup基础知识完成一个简单的爬虫，分别获取两个网站的书籍信息和价格并组合在一起并输出到csv文件中。有兴趣的朋友欢迎关注本博客，也欢迎大家留言进行讨论。

大数据，大数据分析、BeautifulSoup，Beautiful Soup入门，数据挖掘，数据分析，数据处理，pandas，网络爬虫，web scraper

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup的更多相关文章

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
使用Beautiful Soup编写一个爬虫系列随笔汇总
这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识完成了一个简单的爬虫服务:从all ...
python爬虫之Beautiful Soup基础知识+实例
python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...
网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包
1 引言在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...

随机推荐

【原】AFNetworking源码阅读（四）
[原]AFNetworking源码阅读(四) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言上一篇还遗留了很多问题,包括AFURLSessionManagerTaskDe ...
tomcat开发远程调试端口以及利用eclipse进行远程调试
一.tomcat开发远程调试端口方法1 WIN系统在catalina.bat里: SET CATALINA_OPTS=-server -Xdebug -Xnoagent -Djava.compi ...
PhotoView实现图片随手势的放大缩小的效果
项目需求:在listView的条目中如果有图片,点击条目,实现图片的放大,并且图片可以根据手势来控制图片放大缩小的比例.类似于微信朋友圈中查看好友发布的照片所实现的效果. 思路是这样的:当点击条目的时 ...
Xamarin+Prism开发详解五：页面布局基础知识
说实在的研究Xamarin到现在,自己就没设计出一款好的UI,基本都在研究后台逻辑之类的!作为Xamarin爱好者,一些简单的页面布局知识还是必备的. 布局常见标签: StackLayout Abso ...
【项目管理】GitHub使用操作指南
GitHub使用操作指南作者:白宁超 2016年10月5日18:51:03> 摘要:GitHub的是版本控制和协作代码托管平台,它可以让你和其他人的项目从任何地方合作.相对于CVS和SVN的联 ...
AJAX 大全
本章内容: 简介伪 AJAX 原生 AJAX XmlHttpRequest 的属性.方法.跨浏览器支持 jQuery AJAX 常用方法跨域 AJAX JsonP CORS 简单请求.复制请求.请 ...
浅谈JSP注释
HTML注释 JSP文件是由HTML尿急和嵌入的Java程序片段组成的,所以在HTML中的注释同样可以在JSP文件中使用.注释格式: <!-- 欢迎提示信息! ...
JDBC Tutorials: Commit or Rollback transaction in finally block
http://skeletoncoder.blogspot.com/2006/10/jdbc-tutorials-commit-or-rollback.html JDBC Tutorials: Com ...
H3 BPM让天下没有难用的流程之产品概述
一.产品简介 BPM(Business Process Management),是指根据业务环境的变化,推进人与人之间.人与系统之间以及系统与系统之间的整合及调整的经营方法与解决方案的IT工具. H3 ...
SAP自定义权限对象
SAP系统自带了很多的权限对象,每一个运行画面都有非常多的权限用到.不过标准的权限对象并不一定适合于用在客户自己开发的程序里面,所以每个ABAPer都应该会自己开发一套权限对象,并引用在程序代码里面. ...

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup的更多相关文章

随机推荐

热门专题