python爬虫1——获取网站源代码(豆瓣图书top250信息)

# -*- coding: utf-8 -*-

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class Spider(object):

    def __init__(self):

        print('开始爬取豆瓣图书top250的内容。。。。。。')

    # 传入url，返回网页源代码

    def getSourceCode(self, url):

        html = requests.get(url)

        return html.text

    # 从源代码中提取出我们需要的内容块：{书名、作者出版社等、评分、评价人数}。

    def getEveryBookContent(self, sourceCode):

        everyBookContent = re.findall('<table width="100%">(.*?)</table>', sourceCode, re.S)

        # everyBookContent = re.findall('<div class="pl2">(.*?)</div>(.*?)<p class="pl">(.*?)</p>', sourceCode, re.S)

        return everyBookContent

    # 从内容块中提取出数据

    def getBookInfo(self, eachBookContent):

        bookInfo = {}

        # bookInfo['title'] = re.subn('( |\n|<br/>|</?span.*?>)', "", re.search('<a href=.*?>(.*?)</a>', eachBookContent, re.S).group(1))[0]

        bookInfo['title'] = re.sub('( |\n|<br/>|</?span.*?>)', "", re.search('<a href=.*?>(.*?)</a>', eachBookContent, re.S).group(1))

        bookInfo['author'] = re.search('<p class="pl">(.*?)</p>', eachBookContent, re.S).group(1)

        bookInfo['discussNum'] = re.sub('( |\n|<br/>)', "", re.search('<span class="pl">\((.*?)\)</span>', eachBookContent, re.S).group(1))

        bookInfo['score'] = re.search('<span class="rating_nums">(.*?)</span>', eachBookContent, re.S).group(1)

        return bookInfo

    # 将结果保存到文件

    def saveBookInfo(self, bookList):

        f = open("bookList.txt", "a")

        for each in bookList:

            f.writelines('书  名:\t {}\n'.format(each['title']))

            f.writelines('作  者:\t {}\n'.format(each['author']))

            f.writelines('评论数:\t {}\n'.format(each['discussNum']))

            f.writelines('评  分:\t {}\n\n'.format(each['score']))

        f.close()

    def start(self, url):

        sourceCode = self.getSourceCode(url)

        everyBookContent = self.getEveryBookContent(sourceCode)

        bookList = []

        for each in everyBookContent:

            bookList.append(self.getBookInfo(each))

        self.saveBookInfo(bookList)

if __name__ == '__main__':

    douban = Spider()

    url = 'http://book.douban.com/top250?start=0'

    i = 0

    while i <= 225:

        url = 'http://book.douban.com/top250?start={}'.format(i)

        douban.start(url)

        i += 25

python爬虫1——获取网站源代码(豆瓣图书top250信息)的更多相关文章

【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.Bea ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
Python 2.7获取网站源代码的几种方式_20160924
#coding:utf-8 import urllib2,cookielib if __name__ == '__main__': root_url='https://www.baidu.com/' ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...
Python爬虫-爬取豆瓣图书Top250
豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作需要安装reques ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...
python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...

随机推荐

PAT 1054 求平均值 (20)（代码+思路+测试用例）
1054 求平均值 (20)(20 分) 本题的基本要求非常简单:给定N个实数,计算它们的平均值.但复杂的是有些输入数据可能是非法的.一个"合法"的输入是[-1000,1000]区 ...
Linux sudo 错误：XXX is not in the sudoers file 解决办法
最近在学习linux,在某个用户(xxx)下使用sudo的时候,提示以下错误:xxx is not in the sudoers file. This incident will be reporte ...
PhpStorm 2017 激活办法
最新版PhpStorm 2017正式版改进了PHP 7支持,改进代码完成功能.PhpStorm 绝对是PHP开发最好的开发工具. phpstorm已经升级到2017.1,原注册码失效,2017.1.2 ...
如何使用tapd?
tapd 可以编写测试用例测试计划等敏捷开发常用的工具.稍后会更新..
pyspider示例代码五：实现自动翻页功能
实现自动翻页功能示例代码一 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: v2ex fro ...
chrome，opera..通过file协议浏览html代码时，发送的ajax请求本地文件，会报跨域错误
XMLHttpRequest cannot loadfile:///E:/webs/extJS/ext-3.3.0/examples/csdn/combobox.txt?_dc=14147389739 ...
【Jsoup】Jsoup解析Html标签(Java后台解析)
中文API网站(下载地址): http://www.open-open.com/jsoup/ 有时候编辑器传到后台的内容是带Html标签的,或者有时候需要形成一个完整的Html文档,也或者需要解析其中 ...
2018.10.23 bzoj1297: [SCOI2009]迷路（矩阵快速幂优化dp）
传送门矩阵快速幂优化dp简单题. 考虑状态转移方程: f[time][u]=∑f[time−1][v]f[time][u]=\sum f[time-1][v]f[time][u]=∑f[time−1 ...
hdu-1877（大数+进制转换）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1877 思路:注意考虑0,0的情况. #include<iostream> #include ...
使用async-http-client实现异步批量http请求
最近项目中需要在微服务中调用rest接口,而且需要调用得次数很多,所以同步得http客户端已经不满足要求,在网上查阅资料后发现了async-http-client这个包得性能不错,所以写了个demo测 ...

python爬虫1——获取网站源代码(豆瓣图书top250信息)

python爬虫1——获取网站源代码(豆瓣图书top250信息)的更多相关文章

随机推荐

热门专题