python+SQLAlchemy+爬虫

前面分享了SQLAlchemy的知识，这次我共享一下学习用python开发爬虫再把爬出来的数据放到用SQLAlchemy的数据库上面的知识，当然我这个是带测试，后面我和附带用TDD写的测试。

"""

一个简单的豆瓣音乐前250爬虫

Author: Jar.guo email:1418229458@qq.com

Date: 2016-08-27

Language: Python2.7.10

"""

import urllib2

import sys

from lxml import html

from MusicORM import Music,MusicORMHelper

reload(sys)

sys.setdefaultencoding('utf8')

类的简要说明
本类主要用于抓取豆瓣图书Top前250的书籍的名称

Attributes:
cur_url: 用于表示当前争取抓取页面的url
datas: 存储处理好的抓取到的图书名称

class MusicPicker(object):

    def __init__(self):

        self.cur_url = "https://music.douban.com/chart"

        self.datas = []
# 储存的数据库

        self.db=MusicORMHelper("flaskr.db")

        self.db.create_db()

        print "豆瓣音乐爬虫准备就绪, 准备爬取数据..."

Returns:
            返回抓取到整个页面的HTML(unicode编码)
        Raises:
            URLError:url引发的异常

    def Acquire_music_open(self):

        try:

            html_string = urllib2.urlopen(self.cur_url).read().decode("utf-8")

        except urllib2.URLError, e:

            if hasattr(e, "code"):

                print "The server couldn't fulfill the request."

                print "Error code: %s" % e.code

            elif hasattr(e, "reason"):

                print "We failed to reach a server. Please check your url and read the Reason"

                print "Reason: %s" % e.reason

        return html_string

通过返回的整个网页HTML, 正则匹配前250的书籍名称
Args:
content_items: 传入页面的HTML文本进行匹配，这里用的不是正则

    def select_music_Content(self, html_string):

        tree = html.fromstring(html_string)

        content_items = tree.xpath('//a[@href="javascript:;"]/text()')

        return content_items

下面是简单的内容处理的问题

    def form_music_Content(self, content_items):

        top_num = 1

        temp_data = []

        for index, item in enumerate(content_items):

            if (item.find("&nbsp") == -1 and top_num<=10):

                temp_data.append("第" + str(top_num) + "名 " + item)

                top_num += 1

        self.datas.extend(temp_data)

        return  self.datas

爬虫入口, 并控制爬虫抓取页面的范围

    def start_music_spider(self):

        my_page = self.Acquire_music_open()

        content_items = self.select_music_Content(my_page)

        self.form_music_Content(content_items)

这里我们来写一个插入数据库的方法

    def exportData(self, music):

            return self.db.addmusic(music)

最后我们对前面的进行一下处理

def main():
    print """
        ###############################
            一个简单的豆瓣音乐前250爬虫
            Jar.guo email:1418229458@qq.com
            Date: 2016-08-27
        ###############################
    """
    my_spider = MusicPicker()
    my_spider.start_music_spider()
# 在这里对爬出来的内容进行迭代并且插入数据库，并且在这里我们把结果打印出来，方便检查爬虫爬出来的内容是不是自己想要的
    for item in my_spider.datas:
        item_unicode = unicode(item)
        my_spider.exportData(Music(item_unicode,item_unicode))

        print item

    print "spider is  done..."

if __name__ == '__main__':
    main()

下面我发一下相关测试

from MusicORM import Music

from musicPicker import MusicPicker

import unittest  # 包含单元测试模块

import sys

reload(sys)

sys.setdefaultencoding('utf8')

class filmReptileTests(unittest.TestCase):

    def setUp(self):  # 单元测试环境配置

        self.spider= MusicPicker()

    def tearDown(self):  # 单元测试环境清除

        self.spider =None

    def testInit(self):

        self.assertIsNotNone(self.spider)

        self.assertIsNotNone(self.spider.cur_url)

        self.assertEqual(self.spider.cur_url,"https://music.douban.com/chart")

        self.assertEqual(self.spider.datas,[])

    def testGet_page_string(self):

        self.assertIsNotNone(self.spider.Acquire_music_open())

    def testFind_title(self):

        html_string=self.spider.Acquire_music_open()

        titles=self.spider.select_music_Content(html_string)

        self.assertIsNotNone(titles)

        titles_length=len(titles)

        model = self.spider.form_music_Content(titles)

        model_length=len(model)

        self.assertGreater(titles_length, 0)

        self.assertEqual(titles_length,20)

        self.assertIsNotNone(model)

        self.assertEqual(model_length, 10)

    def testExportData(self):

        html_string=self.spider.Acquire_music_open()

        titles=self.spider.select_music_Content(html_string)

        self.assertIsNotNone(titles)

        titles_length=len(titles)

        model = self.spider.form_music_Content(titles)

        model_length=len(model)

        self.assertGreater(titles_length, 0)

        self.assertEqual(titles_length,20)

        self.assertIsNotNone(model)

        self.assertEqual(model_length, 10)

        for item in model:

            isSuccess=self.spider.exportData(Music(unicode( item), unicode( item)))

            self.assertTrue(isSuccess)

python+SQLAlchemy+爬虫的更多相关文章

第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
第三百四十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP
第三百四十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP 设置代理ip只需要,自定义一个中间件,重写process_request方法, request ...
第三百四十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
第三百四十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 ...
Python 3爬虫、数据清洗与可视化实战PDF高清完整版免费下载|百度云盘
百度云盘:Python 3爬虫.数据清洗与可视化实战PDF高清完整版免费下载提取码: 内容简介 <Python 3爬虫.数据清洗与可视化实战>是一本通过实战教初学者学习采集数据.清洗和组 ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Ubuntu下配置python完成爬虫任务（笔记一）
Ubuntu下配置python完成爬虫任务(笔记一) 目标: 作为一个.NET汪,是时候去学习一下Linux下的操作了.为此选择了python来边学习Linux,边学python,熟能生巧嘛. 前期目 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
python SQLAlchemy
这里我们记录几个python SQLAlchemy的使用例子: 如何对一个字段进行自增操作 user = session.query(User).with_lockmode('update').get ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...

随机推荐

LRU 实现缓存
LRU:Least Recently used 最近最少使用 1.使用LinkedHashMap实现 inheritance实现方式继承map类可以使用Collections.synchroniz ...
python学习第37天
MySQL数据库数据库的优势什么是数据(Data) 什么是数据库(DataBase,简称DB) 什么是数据库管理系统(DataBase Managerment System 简称DBMS) 数据库 ...
SpringBoot整合Mybatis【非注解版】
接上文:SpringBoot整合Mybatis[注解版] 一.项目创建新建一个工程选择Spring Initializr,配置JDK版本输入项目名选择构建web项目所需的state ...
DevExpress控件库开发使用经验总结2 DevExpress汉化之WinForm开发模式汉化
2015-01-24 DevExpress控件库默认安装后,使用的本地资源为英文.Developer Express .NET产品都有本地化资源,比如按钮属性,控件属性描述,菜单项,确认和错误的信息等 ...
python分支——if
单分支判断 age = 16 if age >= 18: 判断语句,判断age是否大于等于18,注意if后面要加空格,条件写完后要加: print("你已经成年") prin ...
UOJ#73. 【WC2015】未来程序提交答案题
原文链接www.cnblogs.com/zhouzhendong/p/UOJ73.html 前言纯属理性愉悦. 题解 Subtask1 发现就是求 $a \times b \mod c $ . 写个 ...
python 配置文件__ConfigParser
基础读取配置文件 -read(filename) 直接读取文件内容 -sections() 得到所有的section,并以列表的形 ...
分布式缓存技术之Redis_04Redis的应用实战
目录 1 Redis Java客户端的使用 Jedis 单点连接 Jedis sentinel连接哨兵集群 Jedis sentinel源码分析 Jedis Cluster分片环境连接 Jedis C ...
20175305张天钰《java程序设计》第四周课下测试总结
第四周课下测试总结错题某方法在父类的访问权限是public,则子类重写时级别可以是protected. A .true B .false 正确答案:B 解析:书P122:子类不允许降低方法的访问权 ...
Android进阶：七、Retrofit2.0原理解析之最简流程【下】
紧接上文Android进阶:七.Retrofit2.0原理解析之最简流程[上] 一.请求参数整理我们定义的接口已经被实现,但是我们还是不知道我们注解的请求方式,参数类型等是如何发起网络请求的呢? 这 ...

python+SQLAlchemy+爬虫

python+SQLAlchemy+爬虫的更多相关文章

随机推荐

热门专题