py3+urllib+re，爬虫下载捧腹网图片

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：http://www.cnblogs.com/UncleYong/p/6892688.html
py3+requests+json+xlwt，爬取拉勾招聘信息：http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码：http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下：

import urllib.request, re

# 获取网页源码

def page(pg):

	url = 'https://www.pengfu.com/index_%s.html'%pg

	# 页面是utf8编码，所有解码成unicode

	html = urllib.request.urlopen(url).read().decode('utf8') # <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

	# print(html)

	return html

# 获取标题

def title(html):

	reg = re.compile(r'<h1 class="dp-b"><a href=".*?" target="_blank">(.*?)</a>') # r表示防止转义

	item = re.findall(reg, html)

	# print(item)

	return item

# 获取图片url

def content(html):

	# html = page(1)

	reg = r'<img src="(.*?)" width='

	item = re.findall(reg, html)

	# print(item)

	return item

def download(url, name):

	path = 'image\%s.jpg'%name#.decode('utf-8').encode('gbk') # win下只识别gbk

	urllib.request.urlretrieve(url, path)

for i in range(5,9):

	html = page(i)

	title_list = title(html)

	content_list = content(html)

	for m, n in zip(title_list, content_list): # 把标题和图片对个对应

		print('正在下载>>>>>：' + m, n)

		download(n, m)

py3+urllib+re，爬虫下载捧腹网图片的更多相关文章

python学习笔记（12）--爬虫下载煎蛋网图片
说明: 1. 这个其实是在下载漫画之前写的,比那个稍微简单点,之前忘放到博客备份了. 2. 不想说啥了,总结放到漫画那个里面吧! import urllib.request import re imp ...
python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
Android实战：手把手实现“捧腹网”APP（三）-----UI实现，逻辑实现
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（二）-----捧腹APP原型设计、实现框架选取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Go语言之进阶篇爬捧腹网
1.爬捧腹网网页规律: https://www.pengfu.com/xiaohua_1.html 下一页 +1 https://www.pengfu.com/xiaohua_2.html 主页 ...
Android实战：手把手实现“捧腹网”APP（一）-----捧腹网网页分析、数据获取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
.Net Core爬虫爬取妹子网图片
现在网上大把的Python的爬虫教程,很少看见有用C#写的,正好新出的.Net Core可以很方便的部署到Linux上,就用妹子图做示范写个小爬虫在C#下有个很方便的类库 HtmlAgilityPa ...
Go语言之捧腹网爬虫案例
package main import ( "fmt" "net/http" "os" "regexp" "s ...
爬虫下载校花网美女信息-lxml
# coding=utf-8 # !/usr/bin/env python ''' author: dangxusheng desc : 下载校花网上的个人信息:名字-学校-图片地址-点赞数 date ...

随机推荐

Luogu P1514 引水入城
我承认我有点懒(洛谷已经发过题解了,但我发誓要坚持写博客) 这道题坑了我3天…… 首先一看就与染色问题类似,果断BFS(写DFS炸了) 先将最上面(靠近水)的一行全部扔进队列里,做一遍BFS 再对最下 ...
os模块与 sys模块
os模块 os模块是与操作系统交互的一个接口 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工 ...
Cobbler自动化批量安装Linux操作系统 - 运维总结
一.Cobbler简述 Cobbler是一个自动化和简化系统安装的工具,通过使用网络引导来控制和启动安装.Cobbler的特性包括存储库镜像.Kickstart模板和连接电源管理系统.Cobbler通 ...
Dubbo原理和源码解析之“微内核+插件”机制
github新增仓库 "dubbo-read"(点此查看),集合所有<Dubbo原理和源码解析>系列文章,后续将继续补充该系列,同时将针对Dubbo所做的功能扩展也进行 ...
Record for Individual Project ( Word frequency program )
1. 预计时间 ● 对问题总体的理解.规划:10 min ● 设计编写程序:5 h ● 调试: 分模块-40 min; 总体-40min ● 测试(性能分析).改进:1 h 2. 实际用时 ● 对 ...
Scrum Meeting 9
第九次会议 No_00:工作情况 No_01:任务说明待完成已完成 No_10:燃尽图 No_11:照片记录待更新 No_100:代码/文档签入记录 No_101:出席表 ...
2-Twenty Fourth Scrum Meeting-20151230
前言因为服务器关闭,我们的开发项目也遭遇停滞一个星期.与网站开发负责人员协商之后,29号开放服务器.我们的项目也能够继续下去.比规定的开发时间(截止为2015/12/29)推迟. 事项安排 1.开发 ...
阅读<构建之法>13、14、15、16、17章
13章这么多测试为什么不能整理出一个包括所有功能的测试呢?看着那么多测试都感觉奇怪了. 14章怎样才能体现一个测试人员的工作价值呢?这样的判断又是否会太独断了? 15章在时间上,会不会因不同功能 ...
FuelPHP 系列（六） ------ CURD 增删改查
一.create $article = new Model_Article(); // 或 $article = Model_Article::forge(); // 保存数据,返回新增数据 id $ ...
Java微信二次开发（八）
高级接口,先做了两个(获取用户信息和获取关注者列表) 第一步:找到包com.wtz.vo,新建类UserInfo.java package com.wtz.vo; /** * @author wang ...

py3+urllib+re，爬虫下载捧腹网图片

py3+urllib+re，爬虫下载捧腹网图片的更多相关文章

随机推荐

热门专题