Python: 爬取百度贴吧图片

练习之代码片段，以做备忘：

# encoding=utf8

from __future__ import unicode_literals

import urllib, urllib2

import re

import os

import threading

def get_html(url):

    try:

        url = url.encode('utf-8')

        page = urllib2.urlopen(url)

        return page.read()

    except Exception as ex:

        print 'get url_%s html error, ex=%s' % (url, ex)

def get_images(url):

    url = url.encode('utf-8')

    html = get_html(url)

    pattern = r'<img.+class="BDE_Image".+src="([^"]+\.jpg)"'

    img_list = re.findall(pattern, html)

    pattern = r'<img.+src="([^"]+\.jpg)".+class="BDE_Image"'

    img_list.extend(re.findall(pattern, html))

    # 去重

    img_list = sorted(set(img_list), key=img_list.index)

    return img_list

# 指定主题页面之总页面数

def get_page_count(url):

    html = get_html(url)

    pattern = r'"total_page":(\d+)'

    m = re.search(pattern, html)

    return m.group(1) if m else 0

# 获取每页主题url列表

def get_page_urls(html):

    pattern = r'<a href="/p/(\d+)"'

    url_list = re.findall(pattern, html)

    if url_list:

        url_list = map(lambda x: 'https://tieba.baidu.com/p/%s' % x, url_list)

    return url_list

# 下载指定页面之图片

def download_page_images(page_url):

    html = get_html(page_url)

    title = re.search(r'(?<=<title>)(.*)(?=</title>)', html).group(1)

    print title

    page_no = re.search(r'(\d+)', page_url).group(0)

    page_count = int(get_page_count(page_url))

    print 'page: %s, page_count: %d' % (page_no, page_count)

    for page_idx in range(1, page_count + 1):

        url = page_url + '?pn=%d' % page_idx

        img_list = get_images(url)

        if img_list:

            print 'page index: %d, image_count: %d' % (page_idx, len(img_list))

            if not os.path.exists('images'):

                os.mkdir('images')

            img_folder = 'images\%s' % page_no

            if not os.path.exists(img_folder):

                os.mkdir(img_folder)

            idx = 0

            for img_url in img_list:

                img_filename = img_folder + '\%d_%d.jpg' % (page_idx, idx)

                if not os.path.exists(img_filename):

                    urllib.urlretrieve(img_url, img_filename)

                idx += 1

def main():

    # 扒取最大页数

    max_pagecount = 30

    base_url = r'https://tieba.baidu.com/f?kw=图片&ie=utf-8?pn=%s'

    # 分页而扒

    for idx in range(1, max_pagecount):

        url = base_url % ((idx - 1) * 50)

        html = get_html(url)

        url_list = get_page_urls(html)

        for page_url in url_list:

            try:

                download_page_images(page_url)

                threading._sleep(2)

            except:

                continue

if __name__ == '__main__':

    main()

Python: 爬取百度贴吧图片的更多相关文章

Python爬取百度贴吧图片
一.获取URL Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据.首先,我们定义了一个getHtml()函数: urllib.urlopen()方 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
Python爬取 | 唯美女生图片
这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
python爬取百度贴吧帖子
最近偶尔学下爬虫,放上第二个demo吧 #-*- coding: utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Too ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...

随机推荐

MiniDao_1.6.4 版本发布，轻量级Java持久化框架，Hibernate项目辅助利器
MiniDao 简介及特征 MiniDao 是一款超轻量的JAVA持久层框架,具备Mybatis一样的SQL能力: 支持SQL分离.支持标签.支持注解.MiniDao产生的初衷是为了解决Hiberna ...
IntelliJ IDEA 自动导入包关闭重复代码提示
idea可以自动优化导入包,但是有多个同名的类调用不同的包,必须自己手动Alt+Enter设置设置idea导入包勾选标注 1 选项,IntelliJ IDEA 将在我们书写代码的时候自动帮我们优化 ...
SQL Server 中系统视图sysobjects中type字段的说明
对象类型: AF = 聚合函数 (CLR) C = CHECK 约束 D = DEFAULT(约束或独立) F = FOREIGN KEY 约束 FN = SQL 标量函数 FS = 程序集 (CLR ...
C#new出来的结构体内存分配在堆上
如题,有同事说因为结构体是值类型,所以 new出来的也是分配在栈上的.我的直觉是但凡使用new的东西都在堆上分配内存,除非C#对结构体做了特殊处理. new int[10]这个说明不了什么,因为数组是 ...
python 任务调度模块sched
类似于crontab的功能,可以实现定时定点执行任务; 将已经生成的任务放入队列中,获取到了执行可以实现任务调度功能; 如果将需求复杂化,加上优先级策略,并能取消已经加入队列中的任务,就需要使用pyt ...
C++ 关于 CMFCPropertyGridCtrl 的使用方法之一 (原创)
题外话: 最近在写一个重要的程序,想做的更灵活一些,于是想采用属于对话框的形式,如图所示但查了好几本大部门的C++及MFC的书,还有很多的网上的资料,这方面的介绍实在是少之又少.不过,好在VS201 ...
idea git 发起一个pull request 请求
吴裕雄 python深度学习与实践（1）
#coding = utf8 import threading,time count = 0 class MyThread(threading.Thread): def __init__(self,t ...
Java happen-before
下面是happens-before原则规则: 程序次序规则:一个线程内,按照代码顺序,书写在前面的操作先行发生于书写在后面的操作: 锁定规则:一个unLock操作先行发生于后面对同一个锁额lock操作 ...
js高级-执行上下文
全局上下文方法1() 压入 (栈的数据结构先进后出)push() pop() 1.当一个函数在调用另外一个函数的时候新调用的函数会行成一个新的执行上下文压入执行环境栈的栈顶 2.浏览器js执 ...

Python: 爬取百度贴吧图片

Python: 爬取百度贴吧图片的更多相关文章

随机推荐

热门专题