前面整理了一些爬虫的内容,今天写一个小小的栗子,内容不深,大佬请忽略。内容包括对豆瓣读书网站中的书籍的基本信息进行爬取,并整理,便于我们快速了解每本书的中心。

一、爬取信息

  每当爬取某个网页的信息时,首先就是要进入到网页中,看看有没有什么爬取过程中的限制,可以查看网站的robots协议。就是在原网址的后面加上"/robots.txt"。本网站中得到的结果是:

User-agent: *
Disallow: /subject_search
Disallow: /search
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml User-agent: Wandoujia Spider
Disallow: /

  根据上面的协议可以看到,并没有禁止一些普通的爬虫,就像我们现在这样,仅仅爬取一点点的东西来供自己使用。那么,我们就可以使用之前文章中提到的结构来实现这个爬虫,首先导入函数库,然后套用框架,传入地址,返回页面内容。这点内容在这篇博客中写到了,这里就不详细解释了。到此,网页的爬取就结束了,接下来就剩下从这些东西中拿到我们想要的内容。

 import requests

 url = "https://book.douban.com/"
def getHtmlText(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
try:
response = requests.get(url, headers=headers)
response.raise_for_status()
response.encoding = response.apparent_encoding
return response.text
except:
print("Fail")
return html = getHtmlText(url)

二、信息处理

  上面提取的的网页代码包括很多东西,像展示出来的页面的各种框架等等,这些对我们来说都是没有用的,而且通过正则来提取信息,如果在整个页面中直接提取的话,不免会出现一些巧合,使得没有提取到真正想要的内容,而且pattern一样的其他内容,所以,首先,把要把关键的块先拿出来,再一点一点的取出具体信息。

 import re

 re_books = re.compile('<ul class="list-col list-col5 list-express slide-item">(.*?)</ul>', re.S)  # re.S也在正则表达式的博客中写到了,是为了让“.”可以匹配换行符
content = re_books.search(html)

  通过检查网页源代码,找到可以取出主要信息的匹配规则,将中间的内容全部获得。剩下的就是通过正则来提取每本书的每项信息。这个在于自己观察他们的规律,寻找匹配的规则。信息的标签不止一个,最后选择了使用pandas来整理数据,pandas的DataFrame数据类型可以很方便的存储二维结构,而且pandas有将数据之间存储成excel格式的方法(DataFrame.to_excel())。

 import pandas as pd  # 这是大部分人的习惯,pandas比较长,而且在数据处理中经常使用,所以用pd两个字母来代表

 # 首先,先创建一个DataFrame,之后遍历每本书籍的信息,存成DataFrame格式拼接在他的后面就可以了
data = pd.DataFrame(columns=['title', 'author', 'abstract', 'href', 'publisher']) re_book = re.compile('<li class="">(.*?)</li>', re.S)
bookList = re_book.findall(content[0]) # findall找到所有的书籍信息,返回为列表格式
for book in bookList:
count = 0
count += 1
href = re.search('href="(.*?)"', book) # .*? 是指以非贪婪的模式匹配,()是分组,通过group方便取出其中的信息
href = href.group(1)
title = re.search('<h4 class="title">(.*?)</h4>', book, re.S)
title = title.group(1).split()[0]
author = re.search('<span class="author">(.*?)</span>', book, re.S)
author = ' '.join(author.group(1).split())
publisher = re.search('<span class="publisher">(.*?)</span>', book, re.S)
publisher = ' '.join(publisher.group(1).split())
abstract = re.search('<p class="abstract">(.*?)</p>', book, re.S)
abstract = ' '.join(abstract.group(1).split())
abstract = re.sub('【内容简介】', '', abstract) # 慢慢调试中发现,取得的信息不太好看,其中在第一本数的主要内容开头有这么几个字,就用re的sub方法替换掉了
new = pd.DataFrame({"title":title, "author":author, "abstract":abstract, "href":href, "publisher":publisher}, index=[""])
data = data.append(new, ignore_index=True)
data.to_excel('bookInfo.xls', encoding='utf-8')

  我们可以看一下得到的结果,pandas直接输出的结果也很规整,这里存储到了excel中,起初存到csv文件中,但是乱码了,后面没多想就换成了excel,稍后我再去看看怎么回事,或者有读者清楚地,可以教教博主。

  图中有些东西没有展示出来,但是大家都懂对吧。可以自己试一试。当然这个爬虫很浅,仅得到这点的数据,后面的内容就交给你们了,可以试着往深里点一点,原理都是大同小异的,学习爬虫在平时就要随时发现可以挖掘的东西,慢慢尝试。

豆瓣读书爬虫(requests + re)的更多相关文章

  1. PHP抓取豆瓣读书爬虫代码

    <?php//演示地址 http://asizu.sinaapp.com/reptile_douban.php//数据量不是特别大,没有写抓完数据便停止. 喜欢的朋友拿去自己改改就好了 head ...

  2. 【Python爬虫】听说你又闹书荒了?豆瓣读书9.0分书籍陪你过五一

    说明 五一将至,又到了学习的季节.目前流行的各大书单主打的都是豆瓣8.0评分书籍,却很少有人来聊聊这9.0评分的书籍长什么样子.刚好最近学了学python爬虫,那就拿豆瓣读书来练练手. 爬虫 本来思路 ...

  3. urllib2模块初体验———豆瓣读书页面下载小爬虫

    我也是根据:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ,来写出豆瓣读书的爬虫,废话不说直接上代码: #!/usr/bin ...

  4. python爬虫:利用正则表达式爬取豆瓣读书首页的book

    1.问题描述: 爬取豆瓣读书首页的图书的名称.链接.作者.出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目 ...

  5. 爬虫——requests模块

    一 爬虫简介 #1.什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样. #2.互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是 ...

  6. Python爬虫—requests库get和post方法使用

    目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...

  7. 豆瓣读书top250数据爬取与可视化

    爬虫–scrapy 题目:根据豆瓣读书top250,根据出版社对书籍数量分类,绘制饼图 搭建环境 import scrapy import numpy as np import pandas as p ...

  8. 使用po模式读取豆瓣读书最受关注的书籍,取出标题、评分、评论、题材 按评分从小到大排序并输出到txt文件中

    #coding=utf-8from time import sleepimport unittestfrom selenium import webdriverfrom selenium.webdri ...

  9. Java豆瓣电影爬虫——抓取电影详情和电影短评数据

    一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. ...

随机推荐

  1. matlab练习程序(最小二乘多项式拟合)

    最近在分析一些数据,就是数据拟合的一些事情,用到了matlab的polyfit函数,效果不错. 因此想了解一下这个多项式具体是如何拟合出来的,所以就搜了相关资料. 这个文档介绍的还不错,我估计任何一本 ...

  2. ctypes库调用dll的个人见解

    最近着手开发一个小东西涉及到了API接口的知识点, 第一次使用到了ctypes库,在网上找了一大圈,基本都是讲add.dll之后就没了. 就像下面这个: from ctypes import * dl ...

  3. 关于一体机打印新加菜按钮更改为下单小票打印设置FAQ(适用正餐6.0.1.0+,轻餐4.0.6.2+)

    适用版本:正餐6.0.1.0+,轻餐4.0.6.2+ 实际场景:更新后小票设置中的打印新加菜按钮更换为下单小票打印设置,更换后,设置中,有3个选项: 1.仅打印新加菜    (选中后,订单加菜后前台小 ...

  4. java笔记----面试题总结(一)【转】

    1.面向对象的特征有哪些方面? 答:面向对象的特征主要有以下几个方面: - 抽象:抽象是将一类对象的共同特征总结出来构造类的过程,包括数据抽象和行为抽象两方面.抽象只关注对象有哪些属性和行为,并不关注 ...

  5. create table 使用select查询语句创建表的方法分享

    转自:http://www.maomao365.com/?p=6642 摘要:下文讲述使用select查询语句建立新的数据表的方法分享 ---1 mysql create table `新数据表名` ...

  6. a标签的使用

    a标签可以用来跳转页面请求路径,也可以用来绑定事件. 在绑定事件的时候,我需要控制a标签,不让他进行跳转. 这时候我要做的就是限制他,不让他跳转. 只需要在href属性中加入javascript:vo ...

  7. 编译.py为.pyc

    将test.py编译为.pyc文件,然后直接使用.pyc即可,防止源码外泄 import py_compile py_compile.compile(r'c:/test.py')compileall. ...

  8. [HBase_3] HBase 命令

    0. 说明 1. HBase 命令 1.1 HBase 与 SQL 的区别 1.2 合并 HBase 中的小文件 major_compact 'test:t1' 1.3 删除数据的区别 HBase 在 ...

  9. cmd是命令提示符吗?

    经常使用电脑的小伙伴对cmd有所了解,它能帮我们快速解决问题.搜索框中输入“cmd”,就可以看到命令提示符程序了.那么,命令提示符程序和cmd到底有着什么样的联系呢?下面就为大家讲解一下. CMD是c ...

  10. June 14. 2018 Week 24th Thursday

    Good friends, good books, and a sleepy conscience: this is the ideal life. 拥有益友.良书和一颗宁静的内心:这就是理想的生活. ...