python 爬图 helloworld

最近发现吾志上用户的头像都很个性，另外，对于没有把日记设为私密的用户，最后一天的日记是公开的，谁都可以查看。

所以，如果每天把所有可查看的日记爬一遍，那么～～哈哈

以前对爬虫只是了解一点点，没有真的玩过。既然今晚兴致来了，那就随便学一下咯～

参考 http://blog.csdn.net/pleasecallmewhy/article/details/8925978

参考 http://cuiqingcai.com/1052.html

 #coding=utf-8

 import os

 import urllib

 import urllib2

 import re

 import cookielib

 def mkdir(path):

     # 去除左右两边的空格

     path = path.strip()

     # 去除尾部 \ 符号

     path = path.rstrip("\\")

     if not os.path.exists(path):

         os.makedirs(path)

     return path

 def save_file(path, file_name, data):

     if data == None:

         return

     mkdir(path)

     if (not path.endswith("/")):

         path = path + "/"

     f = open(path+file_name, "wb")

     f.write(data)

     f.flush()

     f.close()

 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'

 headers = {'User-Agent' : user_agent}

 values = {}

 data = urllib.urlencode(values)

 def getHtml(url):

     req = urllib2.Request(url, data, headers)

     page = urllib2.urlopen(req, timeout=10)

     html = page.read()

     page.close()

     #print html

     return html

 def get_file(url):

     try:

         opener = urllib2.build_opener()

         opener.addheaders = [('User-Agent', 'Mozilla/5.0')]

         urllib2.install_opener(opener)

         req = urllib2.Request(url)

         operate = opener.open(req)

         data = operate.read()

         operate.close()

         return data

     except BaseException, e:

         print e, 'fuck'

         return None

 def getImg(html):

     reg = r'src="(.+?\.jpg)" alt='

     imgre = re.compile(reg)

     imglist = re.findall(imgre, html)

     x = 0

     for imgurl in imglist:

         #urllib.urlretrieve(imgurl, '%s.jpg' % x)

         da = get_file(imgurl)

         save_file('.', '%s.jpg' % x, da)

         x += 1

     return x

 html = getHtml("https://wuzhi.me/last")

 print getImg(html)

十分简陋，哈哈～

python 爬图 helloworld的更多相关文章

python爬图
闲的无事,看着知乎里种种python优点,按捺不住,装起python3.4. 网上找了点爬行图片的代码,修改至兼容3.4,成功爬行指定url所有jpg图片,代码段如下: import os impor ...
python 爬图
利用bs库进行爬取,在下载html时,使用代理user_agent来下载,并且下载次数是2次,当第一次下载失败后,并且http状态码是500-600之间,然后会重新下载一次 soup = Beauti ...
Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...

随机推荐

DNA motif 搜索算法总结
DNA motif 搜索算法总结 2011-09-15 ~ ADMIN 翻译自:A survey of DNA motif finding algorithms, Modan K Das et. al ...
如何在win 2008 server和win 7上add web site
在 windows 2008 server 英文版的操作系统上,通过桌面上的 Computer 右键选择 Manage ,打开 Server Manager,选中左侧资源树中的Roles 在上图右侧 ...
值得一看！2018年最优秀的9个Android Material Design Apps!
今年4月,谷歌Gmail推出了全新的设计外观,全新的配色方案,更多的空白区域和精致的图标.也带来了Material Design 的一些改变 – Material Theming (材料主题),旨在自 ...
泛型约束where条件的使用（通过类型参数动态反射创建实例）
定义抽象的人类 using System; using System.Collections.Generic; using System.Linq; using System.Text; using ...
在delphi XE5 里面编译kbmmw4.3
Delphi XE5 仓促的发布了,虽然开始支持Android 开发了,但是经过试用,发现那个模拟器慢到无法用, 真机可以运行,但是调试也几乎无法用.由于XE5 的主要增加的是Android 的开发支 ...
2018.10.14 NOIP训练圣诞树（简单dp）
传送门 sbDP题. 曾经一直TLE不知道为什么. 这次发现输入有坑233. 代码
2018.06.30 cdq分治
#cdq分治 ##一种奇妙的分治方法优点:可以顶替复杂的高级数据结构:常数比较小. 缺点:必须离线操作. CDQ分治的基本思想十分简单.如下: 我们要解决一系列问题,包含修改和查询操作,我们将这些问 ...
hdu-1026（bfs+优先队列）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1026 题意:输入n,m和一个n*m的矩阵, .表示通路: x表示墙: n表示有一个怪物,消灭它需要n个 ...
hdu - 1072（dfs剪枝或bfs）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1072 思路:深搜每一个节点,并且进行剪枝,记录每一步上一次的s1,s2:如果之前走过的时间小于这一次, ...
js函数预编译
function fn(a){ console.log(a); var a = 123; function a(){} console.log(a); var b = function(){} con ...

python 爬图 helloworld

python 爬图 helloworld的更多相关文章

随机推荐

热门专题