百度贴吧python吧抓取用户名和图片

原理就是将贴吧条数中的用户提取出来并在此爬取用户中的图片

#!/usr/bin/env python

#coding:utf-8

import requests

import urllib2

import re

import socket

import logging

import os

import threading

import urllib

import sys

import time

import redis

reload(sys)

sys.setdefaultencoding('utf8')

# 设置超时时间

socket.setdefaulttimeout(30)

# 设置日志级别、格式和日期时间

logging.basicConfig(level=logging.INFO,

                format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',

                datefmt='%a, %d %b %Y %H:%M:%S',

                filename='mz_teacher_spider.log',

                filemode='w')

def details(block_count, block_size, total_size):

    # 总大小(KB)

        total_kb = total_size / 1024

        # 已下载(KB)

        downloaded_kb = (block_count * block_size) / 1024

        par = 100.0 * block_count * block_size/ total_size

        if block_count * block_size <= total_size:

                print (u'\r进度：%.2f%%, 总大小：%dKB, 已下载：%dKB\r' % ( par,total_kb, downloaded_kb))

def get_content(url):

    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}

    try:

        request=urllib2.Request(url,headers=headers)

        # print r.content

        response = urllib2.urlopen(request, timeout=3)

        content=response.read()

        return content

    except urllib2.URLError as e:

        # 写异常日志

        logging.info('该地址不能访问('+str(e)+')：'+url)

    except urllib2.HTTPError as e:

        # 写异常日志

        logging.info('该地址访问出错('+str(e)+')：'+url)

    except socket.timeout:

        # 写异常日志

        logging.info('该地址访问超时：'+url)

def parser(content):

    pattern='a data-field=.*? class="frs-author-name j_user_card " href="(.*?)" target="_blank">(.*?)</a>'

    user_dict={}

    users=[]

    regex = re.compile(pattern)

    items=re.findall(regex,content)

    items=set(items)

    for item in items:

        #print item[0]+item[1]

        user=requests.get('http://tieba.baidu.com'+item[0])

        pattern2='<a href="javascript:;" style="" class="userinfo_head"><img src="(.*?)"/></a>'

        regex2 = re.compile(pattern2)

        imgurl=re.findall(regex2,user.content)

        name=item[1]

        #判断用户是否存在

        if imgurl:

            user_dict['name']=name

            user_dict['imgurl']=imgurl[0]

            users.append(user_dict)

            user_dict={}

            #print user_dict

        else:

            print '该用户不存在'

        # #

        #

        #

        #

    #print users

    return users

def urlretrieve(users,folder,rdb):

    if not os.path.isdir(folder):

        os.mkdir(folder)

    for user in users:

        path=unicode(folder+'/'+user['name']+'.jpg', 'utf-8')

        rdb.hset('tieba_user_info',user['name'],user['imgurl'])

        #print path

        #print path

        print u'线程:%s 正在下载图片: %s \r' %(threading.current_thread(),user['imgurl'])

        urllib.urlretrieve(user['imgurl'],path,reporthook=details)

    rdb.save()

     #

    print '下载完成'

def run(users,folder,rdb):

    urlretrieve(users=users,folder=folder,rdb=rdb)

     #def _fname():

        #return f

     #

if __name__ == '__main__':

    rdb = redis.Redis(host='localhost',port=6379,db=0,password='test')

    r=get_content('http://tieba.baidu.com/f?kw=python&fr=ala0&tpl=5')

    users=parser(r)

    run(users=users,folder='img',rdb=rdb)

百度贴吧python吧抓取用户名和图片的更多相关文章

python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
Python爬虫抓取糗百的图片，并存储在本地文件夹
思路: 1.观察网页,找到img标签 2.通过requests和BS库来提取网页中的img标签 3.抓取img标签后,再把里面的src给提取出来,接下来就可以下载图片了 4.通过urllib的urll ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
WordPress快速增加百度收录,加快网站内容抓取
本文已同步到专业技术网站 www.sufaith.com, 该网站专注于前后端开发技术与经验分享, 包含Web开发.Nodejs.Python.Linux.IT资讯等板块. 利用百度站长平台提供的链接 ...
python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python爬虫抓站的一些技巧总结
使用python爬虫抓站的一些技巧总结:进阶篇一.gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45 ...

随机推荐

leetCode 354. Russian Doll Envelopes
You have a number of envelopes with widths and heights given as a pair of integers (w, h). One envel ...
redis命令String
$ keys * $ rename oldkey newkey $ renamex oldkey newkey 新key存在抛出异常 $ dbsize $ expire key 时间(秒) $ ttl ...
Promise.race
[Promise.race] 返回最先完成的promise var p1 = new Promise(function(resolve, reject) { setTimeout(resolve, 5 ...
ubuntu apt 安装
1. ./autogen.sh: libtoolize: not found sudo apt-get install aptitude sudo aptitude install libtool 2 ...
Memento(备忘录）-对象行为型模式
1.意图在布破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态.这样以后就可以将对象恢复到原先保存的状态. 2.别名 Token 3.动机为了允许用户取消不确定的操作或从错误中 ...
codeforces Codeforces Round #380 (Div. 1, Rated, Based on Technocup 2017 - Elimination Round 2)// 二分的题目硬生生想出来ON的算法
A. Road to Cinema 很明显满足二分性质的题目. 题意:某人在起点处,到终点的距离为s. 汽车租赁公司提供n中车型,每种车型有属性ci(租车费用),vi(油箱容量). 车子有两种前进方式 ...
maven css/js 压缩配置
<plugin> <groupId>net.alchim31.maven</groupId> <art ...
python实验一：画图
题目:画图,学用rectangle画方形. rectangle(int left, int top, int right, int bottom) 参数说明:(left ,top )为矩形的左上坐标, ...
jQuery Mobile 网格布局
jQuery Mobile 布局网格 jQuery Mobile 提供了一套基于 CSS 的列布局方案.不过,一般不推荐在移动设备上使用列布局,这是由于移动设备的屏幕宽度所限. 但是有时你需要定位更小 ...
pxe无人值守安装多网卡注意事项
pxe无人值守安装linux配置这里就不说了,直接看这篇博客http://www.cnblogs.com/mchina/p/centos-pxe-kickstart-auto-install-os.h ...

百度贴吧python吧抓取用户名和图片

百度贴吧python吧抓取用户名和图片的更多相关文章

随机推荐

热门专题