python爬虫：利用正则表达式爬取豆瓣读书首页的book

1、问题描述：

爬取豆瓣读书首页的图书的名称、链接、作者、出版日期，并将爬取的数据存储到Excel表格Douban_I.xlsx中

2、思路分析:

发送请求--获取数据--解析数据--存储数据

1、目标网址：https://book.douban.com/

2、利用requests.get()方法向豆瓣读书首页发送请求，获取首页的HTML源代码

#目标网址

targetUrl = "https://book.douban.com/"

#发送请求，获取响应

response = requests.get(targetUrl).text

3、利用正则re.findall()解析出想要的信息: Name Url Author Date

#编译成正则表达式对象，便于复用该匹配模式

pattern = re.compile('<li.*?title="(.*?)".*?href="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)

results = re.findall(pattern, response)

4、将数据存储到Excel表格中

workBook = xlwt.Workbook(encoding='utf-8') #创建Excel表，并确定编码方式

sheet = workBook.add_sheet("Douban_I")

headData = ["书名", "链接", "作者", "出版日期"]  #表头信息

for colNum in range(len(headData)):

    sheet.write(0, colNum, headData[colNum])

raw = 1

for book in results: #书籍信息：名称、链接、作者、出版日期

    # name, url, author, date = book

    for column in range(len(book)):

        sheet.write(raw, column, book[column].strip())

    raw += 1

workBook.save(".\Douban_I.xlsx")

3、效果展示

4、完整代码：

# -* coding: utf-8 *-

# author: wangshx6

# date: 2018-11-04

# description: 爬取豆瓣读书首页的图书的名称、链接、作者、出版日期，并将爬取的数据存储到Excel表格Douban_I.xlsx中

import requests

import re

import xlwt

#目标网址

targetUrl = "https://book.douban.com/"

#发送请求，获取响应

response = requests.get(targetUrl).text

''' 利用正则表达式解析出关键内容: Name Url Author Date  '''

#re.compile()是将正则字符串编译成正则表达式对象，便于复用该匹配模式

#re.S 多行匹配（换行）

pattern = re.compile('<li.*?title="(.*?)".*?href="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)

results = re.findall(pattern, response)

#将数据列表存储到Excel表格Douban_I.xlsx中

workBook = xlwt.Workbook(encoding='utf-8')

sheet = workBook.add_sheet("Douban_I")

headData = ["书名", "链接", "作者", "出版日期"]  #表头

for colNum in range(len(headData)):

    sheet.write(0, colNum, headData[colNum])

raw = 1

for book in results:

    # name, url, author, date = book

    for column in range(len(book)):

        sheet.write(raw, column, book[column].strip())

    raw += 1

workBook.save(".\Douban_I.xlsx")

python爬虫：利用正则表达式爬取豆瓣读书首页的book的更多相关文章

Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
python实例：自动爬取豆瓣读书短评，分析短评内容
思路: 1.打开书本“更多”短评,复制链接 2.脚本分析链接,通过获取短评数,计算出页码数 3.通过页码数,循环爬取当页短评 4.短评写入到txt文本 5.读取txt文本,处理文本,输出出现频率最高的 ...
python爬虫——利用BeautifulSoup4爬取糗事百科的段子
import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

JavaScript比较和逻辑运算符
JavaScript比较和逻辑运算符 JavaScript比较和逻辑运算符比较和逻辑运算符用于测试true或者false. 比较运算符比较运算符在逻辑语句中使用,以测定变量或值是否相等例如设定x ...
vue监听input标签的value值方法
<input id="materialSearch" type="text" @keyup.enter="search" @input ...
#include stdio.h(3)
#include <stdio.h> int main() { /* * ** *** **** ***** */ ;a<;a++) { printf("\n") ...
Gremlin--一种支持对图表操作的语言
Gremlin 是操作图表的一个非常有用的图灵完备的编程语言.它是一种Java DSL语言,对图表进行查询.分析和操作时使用了大量的XPath. Gremlin可用于创建多关系图表.因为图表.顶点和边 ...
Asp.net防御XSS攻击组件库
一.AntiXss 翻看mvc4高级编程,偶看到作者强烈推荐使用AntiXss防御XSS攻击,收集资料看下. 目前类库已融入到.netframework中,类库主页不再更新. 使用方法:使用Nuget ...
Tomcat 中部署 web 应用 ---- Dubbo 服务消费者 Web 应用 war 包的部署
使用Maven构建Dubbo服务的可执行jar包 Dubbo服务的运行方式: 1.使用Servlet容器运行(Tomcat.Jetty等)----不可取缺点:增加复杂性(端口.管理) 浪费资源(内存 ...
Azure 本月最新活动，速度Mark！
很多时候,为了知晓 Azure 相关活动的信息,需要到处查阅.问朋友同事,这样既麻烦又易造成延误.为方便广大粉丝,我们推出每月活动合集,帮您第一时间了解 Azure 最新活动,还等什么,一起来看吧! ...
TP5.1：将外部资源引入到框架中（css/js/font文件）
为了让我们的框架形式变得更加好看,我们需要加入Bootstrap和Jq文件到框架中 1.通过Bootstrap和jq官网进行相关文件的下载 (1)Bootstrap下载地址:https://v3.bo ...
计算后缀表达式的过程（C#）
计算后缀表达式的过程是一个很好玩的过程,而且很简单哦!这里呢,有个计算的技巧,就是:遇到数字直接入栈,遇到运算符就计算! 后缀表达式也叫逆波兰表达式,求值过程可以用到栈来辅助存储: 假定待求值的后缀表 ...
Leetcode 128. Longest Consecutive Sequence (union find)
Given an unsorted array of integers, find the length of the longest consecutive elements sequence. Y ...

python爬虫：利用正则表达式爬取豆瓣读书首页的book

1、问题描述：

2、思路分析:

1、目标网址：https://book.douban.com/

2、利用requests.get()方法向豆瓣读书首页发送请求，获取首页的HTML源代码

3、利用正则re.findall()解析出想要的信息: Name Url Author Date

4、将数据存储到Excel表格中

3、效果展示

4、完整代码：

python爬虫：利用正则表达式爬取豆瓣读书首页的book的更多相关文章

随机推荐

热门专题