python 爬图

利用bs库进行爬取，在下载html时，使用代理user_agent来下载，并且下载次数是2次，当第一次下载失败后，并且http状态码是500-600之间，然后会重新下载一次

soup = BeautifulSoup(html, "html.parser")
当前页面时html的
当当前页面时html5时

soup = BeautifulSoup(html, "html5lib")

#-*- coding:utf-8 -*-

import re

import urllib

import urllib2

import lxml.html

import itertools

import os

from bs4 import BeautifulSoup

def download(url,user_agent='wswp',num_try = 2):

    print 'Downloading:',url

    headers = {'User_agent':user_agent}

    request = urllib2.Request(url,headers=headers)

    try:

        html = urllib2.urlopen(request).read()

    except urllib2.URLError as e:

        print 'Download error',e.reason

        html = None

        if num_try > 0:

            if hasattr(e,'code') and 500 <= e.code <600:

                return download(url,user_agent,num_try-1)

    return html

def download_picture(url,path,name):

    if not os.path.isdir(path):

        os.mkdir(path)

    f = open(path+'/' + name + '.jpg', 'wb')

    f.write(download(url))

    f.close()

def bs_scraper(html):

    soup = BeautifulSoup(html, "html.parser")

    results = soup.find_all(name='img',attrs={'class':'BDE_Image'})

    tt = 0

    for each in results:

        src = each.get('src')

        print src

        download_picture(src,'/picture',str(tt))

        tt = tt + 1

url = 'https://tieba.baidu.com/p/4693368072'

html = download(url)

bs_scraper(html)

python 爬图的更多相关文章

python爬图
闲的无事,看着知乎里种种python优点,按捺不住,装起python3.4. 网上找了点爬行图片的代码,修改至兼容3.4,成功爬行指定url所有jpg图片,代码段如下: import os impor ...
python 爬图 helloworld
最近发现吾志上用户的头像都很个性,另外,对于没有把日记设为私密的用户,最后一天的日记是公开的,谁都可以查看. 所以,如果每天把所有可查看的日记爬一遍,那么-- 哈哈以前对爬虫只是了解一点点,没有 ...
Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...

随机推荐

在make php-5.5.5时提示没有X11/xpm.h,怎么解决！
yum install libXpm-devel在查询他的安装位置:#rpm -ql libXpm-devel/usr/bin/cxpm/usr/bin/sxpm/usr/include/X11/xp ...
《剑指offer》— JavaScript（2）替换空格
替换空格题目描述请实现一个函数,将一个字符串中的空格替换成"%20".例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 实现 ...
C++ STL 一般总结（转载）
注:原博地址:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/22/2603525.html 以下内容来源网上经过整合而成一.一般介绍 STL ...
Codeforces Round #299 (Div. 2)A B C 水 dfs 二分
A. Tavas and Nafas time limit per test 1 second memory limit per test 256 megabytes input standard i ...
update condition 字段报错
mysql> update tf_user_present set condition="0" where id=1;ERROR 1064 (42000): You have ...
基于packstack的openstack单节点安装
一.安装源处理 1.更新base源为网易的源 cd /etc/yum.repos.d/ wget http://mirrors.163.com/.help/CentOS6-Base-163.repo ...
用Tensorflow实现多层神经网络
用Tensorflow实现多层神经网络觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 Tensorflow机器学习实战指南源代码请点击下方链接欢迎加星 ReLU激活函数/L1范数 ...
Java设计模式の命令模式
意图: 将一个请求封装为一个对象,从而可用不同的请求对客户进行参数化:对请求排队或记录日志,以及支持可撤销的操作动机: 将”发出请求的对象”和”接收与执行这些请求的对象”分隔开来. 效果: 1).c ...
[线索二叉树] [LeetCode] 不需要栈或者别的辅助空间，完成二叉树的中序遍历。题：Recover Binary Search Tree，Binary Tree Inorder Traversal
既上篇关于二叉搜索树的文章后,这篇文章介绍一种针对二叉树的新的中序遍历方式,它的特点是不需要递归或者使用栈,而是纯粹使用循环的方式,完成中序遍历. 线索二叉树介绍首先我们引入“线索二叉树”的概念: ...
zTree使用技巧与详解
zTree--Jquery 树插件,是在后台管理页面中常使用到的插件. 使用效果图: 核心代码: zTree配置: var setting = { data:{simpleData:{enable:t ...

python 爬图

python 爬图的更多相关文章

随机推荐

热门专题