Python每日一练(3):爬取百度贴吧图片
import requests,re
#先把要访问URL和头部准备好
url = 'http://tieba.baidu.com/p/2166231880'
head = {
'Accept': '*/*',
'Accept-Encoding':'gzip,deflate,sdch',
'Accept-Language':'zh-CN,zh;q=0.8',
'Connection':'keep-alive'
}
#获取html源码,这时候html的源码已经在本地了
html = requests.get(url, headers = head)
#重新编码
data = html.content.decode('utf-8') i = 0
#用正则匹配找到图片的URL
pic_url = re.findall(r'<img pic_type="0" class="BDE_Image" src="(.*?)" bdwater',data,re.S)
#把所有图片的URL都列出来,一个一个访问,访问一个存一个。先创建一个0.jpg的文件,然后write写入0.jpg,然后关闭。以此类推
for each in pic_url:
print 'Downloading :' + each
pic = requests.get(each)
fp = open('pic\\' + str(i) + '.jpg','wb')
fp.write(pic.content)
fp.close()
i += 1
运行前:
需要在代码目录下新建一个叫做pic的文件夹,用来存放图片,运行后有惊喜~~~
Python每日一练(3):爬取百度贴吧图片的更多相关文章
- Python爬虫实战二之爬取百度贴吧帖子
		
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
 - 【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
		
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接 问题描述 通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
 - 转 Python爬虫实战二之爬取百度贴吧帖子
		
静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
 - Python爬虫:通过关键字爬取百度图片
		
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...
 - Python简易爬虫爬取百度贴吧图片
		
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
 - Python 基础语法+简单地爬取百度贴吧内容
		
Python笔记 1.Python3和Pycharm2018的安装 2.Python3基础语法 2.1.1.数据类型 2.1.1.1.数据类型:数字(整数和浮点数) 整数:int类型 浮点数:floa ...
 - 【Python】Python简易爬虫爬取百度贴吧图片
		
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
 - python简单爬虫 用beautifulsoup爬取百度百科词条
		
目标:爬取“湖南大学”百科词条并处理数据 需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
 - Python爬虫之简单的爬取百度贴吧数据
		
首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包 之后我们定义一个名叫BaiduSpider类用来爬取信息 属性有 url: ...
 
随机推荐
- 脑波设备mindwave TGCD接口开发示例
			
对于TGCD的开发,神念科技提供的文件包括,头文件thinkgear.h,thinkgear.lib,thinkgear.dll,有这三个文件,在win32下开发就不是什么难事了吧 如果是java语言 ...
 - VS2015 启用“仅我的代码”
			
在调试网站的时候,如果不勾选 [启用"仅我的代码"],会跳出一大堆异常,但是异常不作处理,非常烦人: 解决办法就是在 [调试]->[选项]->[勾选 启用"仅 ...
 - virtualbox中新版本Ubuntu安装软件增强包后重启无限登录界面的解决办法
			
原来我虚拟机版本是4.2.10,装的Ubuntu3.3,因为版本过老使用出现了一些问题,于是换成14.04,安装成功,但是装增强包的时候,装完重启,无限登录界面,密码是对的. 看了网上的很多方法,什么 ...
 - windows 下提取目录下所有文件的文件名
			
tree D:/dir /f >D:/filenames.txt 提取D盘dir目录下所有文件名,写入文件filenames.txt
 - android--email发送邮件,文本还有附件形式的邮件
			
1.首先用的jar包为javaemail 下载地址: https://yunpan.cn/cB3kY8WIvcGtU (提取码:e042) 2.工具包 package com.kllayhello.u ...
 - C# 读书笔记之继承与多态
			
1.1继承与多态的基本概念 1.1.1 继承和多态 继承是面向对象程序设计的主要特征之一,允许重用现有类(基类,亦称超类.父类)去创建新类(子类,亦称派生类)的过程.子类将获取基类的所有非私有数据和行 ...
 - OSG项目经验2<在场景中添加文字面版>
			
添加文字版需要用到osg的三个名字空间: osgText::Text,这个类用来添加文字和设置文字的一些属性: ...
 - arm中的ldr指令
			
label .equ 0x53000000 ldr r0, label : 将0x53000000地址处的值放入r0中 ldr r0, =label : 将0x53000000付值给r0.
 - java循环HashMap两种方法的效率比较
			
一.循环HashMap的两种方式 方式1: Iterator<Entry<String, String>> entryKeyIterator = entrySetMap.ent ...
 - hdoj 5311 Hidden String(KMP)
			
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5311 思路分析:该问题要求在字符串中是否存在三个不相交的子串s[l1..r1], s[l2..r2], ...