python爬虫：利用正则表达式爬取豆瓣读书首页的book

1、问题描述：

爬取豆瓣读书首页的图书的名称、链接、作者、出版日期，并将爬取的数据存储到Excel表格Douban_I.xlsx中

2、思路分析:

发送请求--获取数据--解析数据--存储数据

1、目标网址：https://book.douban.com/

2、利用requests.get()方法向豆瓣读书首页发送请求，获取首页的HTML源代码

#目标网址

targetUrl = "https://book.douban.com/"

#发送请求，获取响应

response = requests.get(targetUrl).text

3、利用正则re.findall()解析出想要的信息: Name Url Author Date

#编译成正则表达式对象，便于复用该匹配模式

pattern = re.compile('<li.*?title="(.*?)".*?href="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)

results = re.findall(pattern, response)

4、将数据存储到Excel表格中

workBook = xlwt.Workbook(encoding='utf-8') #创建Excel表，并确定编码方式

sheet = workBook.add_sheet("Douban_I")

headData = ["书名", "链接", "作者", "出版日期"]  #表头信息

for colNum in range(len(headData)):

    sheet.write(0, colNum, headData[colNum])

raw = 1

for book in results: #书籍信息：名称、链接、作者、出版日期

    # name, url, author, date = book

    for column in range(len(book)):

        sheet.write(raw, column, book[column].strip())

    raw += 1

workBook.save(".\Douban_I.xlsx")

3、效果展示

4、完整代码：

# -* coding: utf-8 *-

# author: wangshx6

# date: 2018-11-04

# description: 爬取豆瓣读书首页的图书的名称、链接、作者、出版日期，并将爬取的数据存储到Excel表格Douban_I.xlsx中

import requests

import re

import xlwt

#目标网址

targetUrl = "https://book.douban.com/"

#发送请求，获取响应

response = requests.get(targetUrl).text

''' 利用正则表达式解析出关键内容: Name Url Author Date  '''

#re.compile()是将正则字符串编译成正则表达式对象，便于复用该匹配模式

#re.S 多行匹配（换行）

pattern = re.compile('<li.*?title="(.*?)".*?href="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)

results = re.findall(pattern, response)

#将数据列表存储到Excel表格Douban_I.xlsx中

workBook = xlwt.Workbook(encoding='utf-8')

sheet = workBook.add_sheet("Douban_I")

headData = ["书名", "链接", "作者", "出版日期"]  #表头

for colNum in range(len(headData)):

    sheet.write(0, colNum, headData[colNum])

raw = 1

for book in results:

    # name, url, author, date = book

    for column in range(len(book)):

        sheet.write(raw, column, book[column].strip())

    raw += 1

workBook.save(".\Douban_I.xlsx")

python爬虫：利用正则表达式爬取豆瓣读书首页的book的更多相关文章

Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
python实例：自动爬取豆瓣读书短评，分析短评内容
思路: 1.打开书本“更多”短评,复制链接 2.脚本分析链接,通过获取短评数,计算出页码数 3.通过页码数,循环爬取当页短评 4.短评写入到txt文本 5.读取txt文本,处理文本,输出出现频率最高的 ...
python爬虫——利用BeautifulSoup4爬取糗事百科的段子
import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

ASP.NET 4.5 尚未在 Web 服务器上注册。您需要手动将 Web 服务器配置为使用 ASP.NET 4.5，这样您的网站才能正确运行。
系统换成Windows10安装VS2012打开项目总提示:vs2012 aps.NET 4.5尚未在web服务器上注册,您需要手动将Web服务器配置为使用ASP.Net 4.5,这样您的网站才可能正确 ...
maven课程项目管理利器-maven 2-2第一个maven案例hellomaven
maven 目录结构 pom.xml src -main -java -package -test -java -package -resources
ArrayList、Vector、HashMap、HashSet
1. list 和 set 的有序无序是否可重复 List是有序可重复的: Set是无序不可重复的: 2.ArrayList.Vector.HashMap.HashSet的默认初始容量.加载因子.扩 ...
Android Recyclerview隐藏item的所在区域显示大空白问题的解决方案
最近搞了下Recyclerview,做了增加.删除item的功能.item上方有卡签插个图片看下效果,点击底下的添加上去,同时,底下的item消失,这个用notifyItemInserted和not ...
List之Sort使用
void TestListSort(){ List<string> st = new List<string> (); st.Add ("abcd"); s ...
【工作中学习2】Map的使用及排序（第三个参数）
项目进行中,使用到Map(std::map),Map要点整理如下: 1. Map,也叫关联数组,提供key/value(键/值对),key用来索引,value是被存储和检索的数据. 2. key值唯一 ...
java：错误Error，异常Excepition
java中throw异常后代码还会继续执行吗今天遇到一个问题,在下面的代码中,当抛出运行时异常后,后面的代码还会执行吗,是否需要在异常后面加上return语句呢? public void add(i ...
html中如何使用python屏蔽一些基本功能
进行数据解析的理由不计其数,相关的工具和技巧也同样如此.但是,当您需要用这些数据做一些新的事情时,即使有“合适的”工具可能也是不够的.这一担心对于异类数据源的集成同样存在.用来做这项工作的合适工具迟早 ...
Ubuntu Deb包安装<个人笔记>
安装删除卸载 Deb 包文件图形界面: 安装deb 直接双击图标,输入密码后就可自动安装. 卸载deb 1. 菜单-系统->系统管理->新立得软件包管理器或 Alt+F2(运行 ...
*15. 3Sum (three pointers to two pointers), hashset
Given an array nums of n integers, are there elements a, b, c in nums such that a + b + c = 0? Find ...

python爬虫：利用正则表达式爬取豆瓣读书首页的book

1、问题描述：

2、思路分析:

1、目标网址：https://book.douban.com/

2、利用requests.get()方法向豆瓣读书首页发送请求，获取首页的HTML源代码

3、利用正则re.findall()解析出想要的信息: Name Url Author Date

4、将数据存储到Excel表格中

3、效果展示

4、完整代码：

python爬虫：利用正则表达式爬取豆瓣读书首页的book的更多相关文章

随机推荐

热门专题