[Python] 糗事百科文本数据的抓取

源码

https://github.com/YouXianMing/QiuShiBaiKeText

import sqlite3

import time

import requests

from regexp_string import *

class QiuShiBaiKeText35:

    db_name = 'qiu_shi_bai_ke_text35.db'

    conn = None

    def prepare(self):

        """

        开始准备数据库相关准备工作

        :return: PiuShiBaiKeText35对象本身

        """

        # 连接数据库,不存在则创建

        self.conn = sqlite3.connect(self.db_name)

        # 不存在表则创建表

        sql_str = """CREATE TABLE IF NOT EXISTS qiu_shi_bai_ke_text (articleId INT8 PRIMARY KEY NOT NULL,

        content TEXT, date TIMESTAMP); """

        self.conn.execute(sql_str)

        # 关闭数据库

        self.conn.close()

        self.conn = None

        return self

    def start(self, max_page=99999):

        """

        开始爬数据

        :param max_page: 最大页码,不设置则为99999

        :return: PiuShiBaiKeText35对象本身

        """

        self.conn = sqlite3.connect(self.db_name)

        self.__qiu_shi_text(max_page)

        self.conn.close()

        self.conn = None

        return self

    def __qiu_shi_text(self, max_page=99999):

        """

        开始扫描

        :param max_page: 最大页码,不设置则为99999

        :return: None

        """

        for i in range(1, max_page):

            url = "http://www.qiushibaike.com/text/page/%s/" % i

            print(url)

            time.sleep(0.5)

            request = requests.get(url)

            if i != 1:

                request = requests.get(url)

                if request.url != url:

                    break

            self.__convert_from_web_string(request.text)

    def __convert_from_web_string(self, web_string):

        """

        获取网页字符串,并用正则表达式进行解析

        :param web_string: 网页字符串

        :return: None

        """

        # 获取列表

        pattern = r"""\d+" target="_blank" class='contentHerf' >.+?</span>"""

        item_list = RegExpString(web_string).get_item_list_with_pattern(pattern)

        # 如果存在列表,则遍历列表

        if item_list:

            for item in item_list:

                # 内容id

                article_id = RegExpString(item).search_with_pattern(r'^\d+').search_result

                # 内容

                article_content = RegExpString(item).search_with_pattern(

                    r'(?<=<span>).+(?=</span>)').search_result

                article_content = RegExpString(article_content).replace_with_pattern(r'<br/>',

                                                                                     "\n").replace_result

                # 打印内容

                print("http://www.qiushibaike.com/article/%s\n%s\n\n" % (article_id, article_content))

                # 先查找有没有这个id的数据

                cursor = self.conn.execute("""SELECT COUNT(*) FROM qiu_shi_bai_ke_text WHERE articleId = '%s';""" % article_id)

                for row in cursor:

                    # 如果查不到数据,则插入数据

                    if row[0] == 0:

                        # 插入语句

                        sql_str = """INSERT INTO qiu_shi_bai_ke_text (articleId, content, date) VALUES ('%s', '%s', '%s');""" % (

                            article_id, article_content, time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()))

                        self.conn.execute(sql_str)

                self.conn.commit()

细节

1. 抓取 http://www.qiushibaike.com/text/ 所有35个页面的文本数据

2. 抓取的数据写进数据库,数据库用的是sqlite3

3. 基于Python3.60版本,其他版本未测试

4. 网络库使用过的 requests (https://github.com/kennethreitz/requests) ,如果没有安装,请使用 pip install requests 安装

效果

[Python] 糗事百科文本数据的抓取的更多相关文章

python 糗事百科实例
爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取获取每个 ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
糗事百科python爬虫
# -*- coding: utf-8 -*- #coding=utf-8 import urllib import urllib2 import re import thread import ti ...
5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
python 抓取糗事百科糗图
1 首先看下要抓取的页面这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来. 2 分析网页源代码发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的u ...
Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
Python爬虫(十八)_多线程糗事百科案例
多线程糗事百科案例案例要求参考上一个糗事百科单进程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(队列对象) Queue是python ...

随机推荐

PYTHON-模块 sys os random shutil-练习
# 作业:# 添加工程根目录至环境变量要求可以跨平台# import sys,os# BATH_DIR=os.path.dirname(os.path.dirname(__file__))# sys ...
win7 X64系统上 PL/SQL不能识别Oracle实例
电脑系统为Win7 64位,安装的PLSql为64位,安装的Oracle客户端为运行时类型的,应该为32位客户端电脑上之前安装的32位toad可以识别Oracle实例在系统添加了oracle_ho ...
如何将Request对象中的参数列表打印出来
Map<String, String[]> map = request.getParameterMap(); Set<Map.Entry<String, String[]> ...
hdu3436 splaytree树模拟队列+离散化缩点
数据较大,需要先把每个top不会操作到的段缩成一个点,记录其开始和结束的位置,和top能操作到的点一起建立一颗伸展树模拟然后就是普通的队列模拟操作 /* 不会被top操作到的区间就缩点通过spla ...
性能测试二十八：环境部署之Dubbo部署
Zookeeper部署 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件.它是一个为分布式应用提供一 ...
Fiddler抓包7-post请求（json）
前言上一篇讲过get请求的参数都在url里,post的请求相对于get请求多了个body部分,本篇就详细讲解下body部分参数的几种形式. 一.body数据类型常见的post提交数据类型有四种: 1 ...
《转》MySQL 5.7版本新特性连载
MySQL 5.7版本新特性连载(一) 本文将和大家一起分享下5.7的新特性,不过我们要先从即将被删除的特性以及建议不再使用的特性说起.根据这些情况,我们在新版本及以后的版本中,应该不再使用,避免未来 ...
JavaScript错误：Maximum call stack size exceeded错误
错误的表面意思是,因为递归次数太多而内存溢出, 当然引起溢出的原因很多找了下问题来源,发现引用了两个版本的jquery,在layout.cshtml母模块页中和视图中都引用了jq.导致循环调用,从而 ...
oracle中计算某月的天数
select add_months(to_date('201202', 'YYYYMM'),1)-to_date('201202', 'YYYYMM') from dual
MyEclipse10中启动出现OutOfMemoryError: PermGen space如何解决
一篇关于技术的文档,分享给大家.在MyEclipse中启动程序运行,报错java.lang.OutOfMemoryError: PermGen space应该怎么办?这是eclipse 内存不够的原因 ...

[Python] 糗事百科文本数据的抓取

[Python] 糗事百科文本数据的抓取的更多相关文章

随机推荐

热门专题