python 爬图

利用bs库进行爬取，在下载html时，使用代理user_agent来下载，并且下载次数是2次，当第一次下载失败后，并且http状态码是500-600之间，然后会重新下载一次

soup = BeautifulSoup(html, "html.parser")
当前页面时html的
当当前页面时html5时

soup = BeautifulSoup(html, "html5lib")

#-*- coding:utf-8 -*-

import re

import urllib

import urllib2

import lxml.html

import itertools

import os

from bs4 import BeautifulSoup

def download(url,user_agent='wswp',num_try = 2):

    print 'Downloading:',url

    headers = {'User_agent':user_agent}

    request = urllib2.Request(url,headers=headers)

    try:

        html = urllib2.urlopen(request).read()

    except urllib2.URLError as e:

        print 'Download error',e.reason

        html = None

        if num_try > 0:

            if hasattr(e,'code') and 500 <= e.code <600:

                return download(url,user_agent,num_try-1)

    return html

def download_picture(url,path,name):

    if not os.path.isdir(path):

        os.mkdir(path)

    f = open(path+'/' + name + '.jpg', 'wb')

    f.write(download(url))

    f.close()

def bs_scraper(html):

    soup = BeautifulSoup(html, "html.parser")

    results = soup.find_all(name='img',attrs={'class':'BDE_Image'})

    tt = 0

    for each in results:

        src = each.get('src')

        print src

        download_picture(src,'/picture',str(tt))

        tt = tt + 1

url = 'https://tieba.baidu.com/p/4693368072'

html = download(url)

bs_scraper(html)

python 爬图的更多相关文章

python爬图
闲的无事,看着知乎里种种python优点,按捺不住,装起python3.4. 网上找了点爬行图片的代码,修改至兼容3.4,成功爬行指定url所有jpg图片,代码段如下: import os impor ...
python 爬图 helloworld
最近发现吾志上用户的头像都很个性,另外,对于没有把日记设为私密的用户,最后一天的日记是公开的,谁都可以查看. 所以,如果每天把所有可查看的日记爬一遍,那么-- 哈哈以前对爬虫只是了解一点点,没有 ...
Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...

随机推荐

windows提权基础大全
Not many people talk about serious Windows privilege escalation which is a shame. I think the reason ...
三年java面试题
前言: 楼主毕业三年,从大学时期就开始一直从事java web方面的开发.我在去年的今天有一篇帖子:两年java面试经验.经历了一年的上班,成长了很多.今年因为某些原因辞职了.从2月底辞职,到3月初, ...
Python3 字典 update() 方法
Python3 字典描述 Python 字典 update() 函数把字典dict2的键/值对更新到dict里. 语法 update()方法语法: dict.update(dict2) 参数 di ...
Error: Chromium revision is not downloaded. Failed to download Chromium
在使用prerender-spa-plugin做前端预渲染的时候,安装puppeteer的时候因为下载Chromium 失败报错,有如下解决方法: 1.使用Chromium 国内源 npm confi ...
HDU4003 树形DP
题意 :给一棵n个节点的树, 节点编号为1~n, 每条边都有一个花费值. 有k个机器人从S点出发, 问让机器人遍历所有边,最少花费值多少? 这题最难的地方应该就是如何定义状态了定义dp ...
CentOS6.6安装heartbeat配置资源切换操作笔记实现高可用（原创）
参考资料:http://www.centoscn.com/CentosServer/cluster/2015/0605/5604.html 背景需求: 使用heartbeat来做HA集群,并且把n ...
scp 从本地往线上传文件
scp /home/wwwroot/default/tf_ment.sql root@IP:/home/wwwroot/default/
reset password for local admin on Windows2016 by Powershell
上脚本吧,找半天 $password = "yourpassword" $pwd = $password | ConvertTo-SecureString -asPlainText ...
shell多进程的实现
需求:多个脚本彼此互不干涉,同时运行,节省时间菜鸟级实现: #!/bin/sh dir="/data/test" $dir/sbin/test1.sh >> $dir ...
Css Sprite 图片等比缩放图片大小
图片大小80*40,即每张图片大小40*40,如何以20*20显示图片?1. 首先看下如何以40*40显示第二张图片: 正常显示css代码 .sprite { background-image: ur ...

python 爬图

python 爬图的更多相关文章

随机推荐

热门专题