python 网页抓取并保存图片

#-*-coding:utf-8-*-

import os

import uuid

import urllib2

import cookielib

'''获取文件后缀名'''

def get_file_extension(file):

return os.path.splitext(file)[1]

'''創建文件目录，并返回该目录'''

def mkdir(path):

# 去除左右两边的空格

path=path.strip()

# 去除尾部 \符号

path=path.rstrip("\\")

if not os.path.exists(path):

os.makedirs(path)

return path

'''自动生成一个唯一的字符串，固定长度为36'''

def unique_str():

return str(uuid.uuid1())

'''

抓取网页文件内容，保存到内存

@url 欲抓取文件 ，path+filename

'''

def get_file(url):

try:

cj=cookielib.LWPCookieJar()

opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

urllib2.install_opener(opener)

req=urllib2.Request(url)

operate=opener.open(req)

data=operate.read()

return data

except BaseException, e:

print e

return None

'''

保存文件到本地

@path 本地路径

@file_name 文件名

@data 文件内容

'''

def save_file(path, file_name, data):

if data == None:

return

mkdir(path)

if(not path.endswith("/")):

path=path+"/"

file=open(path+file_name, "wb")

file.write(data)

file.flush()

file.close()

#获取文件后缀名

print get_file_extension("123.jpg");

#創建文件目录，并返回该目录

#print mkdir("d:/ljq")

#自动生成一个唯一的字符串，固定长度为36

print unique_str()

url="http://qlogo1.store.qq.com/qzone/416501600/416501600/100?0";

save_file("d:/ljq/", "123.jpg", get_file(url))

转自：http://www.cnblogs.com/linjiqin/p/3672285.html

python 网页抓取并保存图片的更多相关文章

一个极其简洁的Python网页抓取程序，自己主动从雅虎財经抓取股票数据
本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期.股票名称.实时报价.当日变化率. ...
python网页抓取练手代码
from urllib import request import html.parser class zhuaqu(html.parser.HTMLParser): blogHtml = " ...
python分布式抓取网页
呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Python网络爬虫笔记（一）：网页抓取方式和LXML示例
(一) 三种网页抓取方法 1. 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2. Beautiful Soup 模块使用Python编写,速度慢. ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
Python之HTML的解析（网页抓取一）
http://blog.csdn.net/my2010sam/article/details/14526223 --------------------- 对html的解析是网页抓取的基础,分析抓取的 ...

随机推荐

使用MyEclipse开发Java EE应用：企业级应用程序项目（下）
你开学,我放价!MyEclipse线上狂欢继续!火热开启中>> [MyEclipse最新版下载] 二.项目组织.依赖性和类解析 JEE规范为企业应用程序定义了一个分层的Java类解决策略, ...
MyEclipse持续性开发教程：用JPA和Spring管理数据（一）
MyEclipse开年钜惠在线购买低至75折!立即开抢>> [MyEclipse最新版下载] 本教程介绍了MyEclipse中的一些基于JPA / Spring的功能.有关设置JPA项目 ...
CUDA ---- Memory Model
Memory kernel性能高低是不能单纯的从warp的执行上来解释的.比如之前博文涉及到的,将block的维度设置为warp大小的一半会导致load efficiency降低,这个问题无法用war ...
golang多进程测试代码
package main import ( "fmt" "runtime" ) func test(c chan bool, n int) { x := 0 f ...
Cookie注入实战（非SQL注入）
cookie注入原理其实很简单,就是利用了session机制中的特性,只能说是特性,不能算是漏洞. 这里简单的说下原理,session的机制就相当于你有一张蛋糕店的会员卡,这张会员卡就是你浏览器中的c ...
matlab repmat()
一.B = repmat(A,m,n) 将矩阵 A 复制 m×n 块,即把 A 作为 B 的元素,B 由 m×n 个 A 平铺而成.B 的维数是 [size(A,1)*m, size(A,2)*n] ...
stm32 内部温度传感器的配置
STM32的内部温度传感器和ADCx—IN16输入通道相连接.且温度传感器推荐采样时间为17.1us,支持的温度范围为:-40~125度,精度比较差,± 5℃左右. 计算温度值:T(℃) ={(V25 ...
【java规则引擎】《Drools7.0.0.Final规则引擎教程》第4章 4.2 agenda-group
转载:https://blog.csdn.net/wo541075754/article/details/75332720 agenda-group 规则的调用与执行是通过StatelessKieSe ...
matplotlib-------标记特殊点
import matplotlib.pyplot as plt import numpy as np def demo_test(): a=np.array([0.15,0.16,0.14,0.17, ...
JNI学习笔记_C调用Java
一.笔记 1.C调用Java中的方法,参考jni.pdf pg97可以参考博文:http://blog.csdn.net/lhzjj/article/details/26470999步骤: a. 创建 ...

python 网页抓取并保存图片

python 网页抓取并保存图片的更多相关文章

随机推荐

热门专题