python小爬虫练手

一个人无聊，写了个小爬虫爬取不可描述图片....

代码太短，就暂时先往这里贴一下做备份吧。

注：这是很严肃的技术研究，当然爬下来的图片我会带着批判性的眼光审查一遍的.... ：）

#! /usr/bin/python

import chardet

import urllib3

import uuid

import os

import logging

import time

import sys

import re

import threading

from bs4 import BeautifulSoup

"""

http://www.qiubaichengren.com/1.html

"""

class PageNotFoundException(BaseException):

    """

        代表网页404的异常

    """

    pass

class ResponseStatusException(BaseException):

    pass

class QiuBaiChengRenSpider:

    http_pool_manager = urllib3.PoolManager()

    img_save_dir = 'D:/QiuBaiChengRen/'

    logger = logging.getLogger('QiuBaiChengRenSpider')

    def __init__(self):

        self.init_log()

    def init_log(self):

        stream_handler = logging.StreamHandler(sys.stdout)

        self.logger.addHandler(stream_handler)

        self.logger.setLevel(logging.DEBUG)

    def get(self, url):

        try:

            http_response = self.http_pool_manager.request('GET', url)

            if http_response.status == 404:

                raise PageNotFoundException('404')

            if http_response.status != 200:

                raise ResponseStatusException(http_response.status)

            return http_response.data

        except Exception:

            self.logger.info(u'获取网页的时候发生了异常')

            return ''

    def extract_img(self, html_doc):

        bs = BeautifulSoup(html_doc, 'lxml')

        imgs = bs.select('div.mala-text img')

        return imgs

    def save_img(self, img_tag):

        img_link = img_tag['src'].strip()

        save_name = self.img_save_dir + img_tag['alt'] + '___' + uuid.uuid4().hex + os.path.splitext(img_link)[1]

        save_name = re.compile('[\\s+,\",\']').sub('', save_name)    # 覆盖掉生成的文件名中不合法的部分

        self.logger.info('Save img: %s %s' %(save_name, img_link))

        img_byte = self.get(img_link)

        if img_byte == '':

            return

        img_file = open(save_name, 'wb')

        img_file.write(img_byte)

        img_file.close()

    def list_visitor(self, seed):

        threads = []

        i = 1

        while True:

            try:

                url = seed % {'page': i}

                self.logger.info('Begin process：%s' %url)

                html_doc = self.get(url)

                if html_doc == '':

                    continue

                imgs = self.extract_img(html_doc)

                for img in imgs:

                    # self.logger.info('Saving img：%s %s' %(img['alt'], img['src']))

                    t1 = threading.Thread(target=self.save_img, args={img})

                    t1.start()

                    threads.append(t1)

                i += 1

            except PageNotFoundException:

                self.logger.info('404')

                break

            except BaseException:

                break

        for t1 in threads:

            t1.join()

if __name__ == '__main__':

    spider = QiuBaiChengRenSpider()

    spider.list_visitor('http://www.qiubaichengren.com/%(page)d.html')

python小爬虫练手的更多相关文章

简单的node爬虫练手，循环中的异步转同步
简单的node爬虫练手,循环中的异步转同步转载:https://blog.csdn.net/qq_24504525/article/details/77856989 看到网上一些基于node做的爬虫 ...
python爬虫练手项目快递单号查询
import requests def main(): try: num = input('请输入快递单号:') url = 'http://www.kuaidi100.com/autonumber/ ...
Python入门、练手、视频资源汇总，拿走别客气！
摘要:为方便朋友,重新整理汇总,内容包括长期必备.入门教程.练手项目.学习视频. 一.长期必备. 1. StackOverflow,是疑难解答.bug排除必备网站,任何编程问题请第一时间到此网站查找. ...
python学习笔记-练手实例
1.题目:输出 9*9 乘法口诀表. 程序分析:分行与列考虑,共9行9列,i控制行,j控制列代码: for i in range(1,10): print ('\r') for j ...
【现学现卖】python小爬虫
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用 ...
Python 爬虫练手项目—酒店信息爬取
from bs4 import BeautifulSoup import requests import time import re url = 'http://search.qyer.com/ho ...
Python 小爬虫流程总结
接触Python3一个月了,在此分享一下知识点,也算是温故而知新了. 接触python之前是做前端的.一直希望接触面能深一点.因工作需求开始学python,几乎做的都是爬虫..第一个demo就是爬取X ...
Python Python Python 100个练手项目
1.淘宝模拟登录2.天猫商品数据爬虫3.爬取淘宝我已购买的宝贝数据4.每天不同时间段通过微信发消息提醒女友5.爬取5K分辨率超清唯美壁纸6.爬取豆瓣排行榜电影数据(含GUI界面版)7.多线程+代理池爬 ...
Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...

随机推荐

ubuntu通过apt-get方式搭建lnmp环境以及php扩展安装
v 一直是在用的lnmp的集成安装包搭建lnmp环境,因为工作需要需要安装ldap扩展,在网上怎么都找不到源码安装包,只能卸载掉原来的lnmp环境,用ubuntu的php5-ldap扩展, 在安装中遇 ...
Exception: com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException: Deadlock found when trying to get lock; try restarting transaction
我在update数据库的时候出现的死锁数据库表死锁 Exception: com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackExcept ...
两个float 怎么比较大小
转自:http://blog.csdn.net/mydriverc2/article/details/49888947 float 类型不能比较相等或不等,但可以比较>,<,>=,& ...
Linux 重定向输出到多个文件中
转自:http://codingstandards.iteye.com/blog/833695 用途说明在执行Linux命令时,我们可以把输出重定向到文件中,比如 ls >a.txt,这时我们 ...
秒杀多线程第二篇多线程第一次亲密接触 CreateThread与_beginthreadex本质区别（续）
由于原作者主要写window上的线程,而我主要学习android,所以本文将分析android方面多线程. 1.Thread: public void Thread1(){ Thread a = ne ...
利用JavaFX访问MySQL数据库
1. 创建数据库表 create table Course( courseId char(5), subjectId char(4) not null, courseNumber integer, t ...
题解 P1765 【手机_NOI导刊2010普及（10）】
说实话,打表真的很累! 所以小金羊又开始暴力出奇迹了! 这个题解适合初学者使用. 知识点:string里面的str.find()函数: 可以查找字符串和字符,有就返回位置(开头是0), 没有就返回st ...
Docker学习笔记一：如何在线安装
一.Docker简介: Docker 是一个开源的应用容器引擎,基于 Go 语言并遵从Apache2.0协议开源.Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级.可移植的容器中,然后 ...
SQL通用优化方案(where优化、索引优化、分页优化、事务优化、临时表优化)
SQL通用优化方案:1. 使用参数化查询:防止SQL注入,预编译SQL命令提高效率2. 去掉不必要的查询和搜索字段:其实在项目的实际应用中,很多查询条件是可有可无的,能从源头上避免的多余功能尽量砍掉, ...
python基础----再看property、描述符(__get__,__set__,__delete__)
一.再看property 一个静态属性property ...

python小爬虫练手

python小爬虫练手的更多相关文章

随机推荐

热门专题