python基础学习1-第一个网络爬虫程序
#!/usr/bin/env python
# -*- coding:utf-8 -*- 煎蛋网抓妹子图
import urllib.request
import os
import random def url_open(url): #定义打开网络连接函数
req = urllib.request.Request(url)#创建Request对象
#给Request对象添加伪装头文件
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
#定义个代理IP列表 用于随机选择代理IP
iplist=['218.240.53.54:81','123.7.78.157:9999','112.95.105.26:9999','61.174.10.22:8080','115.52.204.30:9999']
#创建代理对象
proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener = urllib.request.build_opener(proxy_support)
#设置代理对象伪装头文件
opener.addheaders=[("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36")]
#安装代理文件
urllib.request.install_opener(opener)
#打开对应URL
respons = urllib.request.urlopen(url)
#接收对应URL的html代码
html = respons.read()
return html def get_page(url):#定义查找图片页面函数
html=url_open(url)#打开URL页面或的html代码
html=html.decode('utf-8')#用utf-8反编码 a=html.find('current-comment-page')+23#查找html代码中current-comment-page标志+23偏移量 得到图片页码 <span class="current-comment-page">[2110]</span>其中的2110
b=html.find(']',a) #定义结束位置
return (html[a:b])#返回取得的页码 def find_img(url):
html= url_open(url).decode('utf-8')#打开URL文件 把返回的html文件utf-8反编译
img_addrs=[]#定义图片地址列表
a=html.find('img src=')#在html文件中查找所有img src开头的 图片文件
while a!=-1: #a=-1时表示find完毕
b=html.find('.jpg',a,a+255)#查询到 img_src开头 和.jpg结尾的
if b != -1:
img_addrs.append(html[a+9:b+4])#查询到满足条件的html代码信息 就保存在图片列表中
else:
b=a+9
a=html.find('img src=',b)
return img_addrs def save_imgs(folder,img_adds):
for each in img_adds:
filename = each.split('/')[-1]
with open(filename,'wb') as f:
img=url_open(each)
f.write(img) def down_mm(folder='downloadimg',pages=10):
os.mkdir(folder)#新建文件夹
os.chdir(folder)#切换到当前文件夹 url="http://jandan.net/ooxx/"
page_num=int(get_page(url))#取得开始页面号
print(str(page_num))
for i in range(pages):#依次页面号递减 返回前10页的图片
page_num -=i
page_url=url+'page-'+str(page_num)+'#comments'#拼出页面URL+图片页面号 http://jandan.net/ooxx/page-2110#comments
img_adds= find_img(page_url)#查找出当前打开页面的所有图片路径和文件名称信息保存在列表中
save_imgs(folder,img_adds)#根据列表中保存的文件路径和名称 通过网络下载图片到指定文件夹下面 down_mm()
python基础学习1-第一个网络爬虫程序的更多相关文章
- 使用Python写的第一个网络爬虫程序
		
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...
 - Day1 Python基础学习
		
一.编程语言分类 1.简介 机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件 汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编写程序,本质仍然是直接操作 ...
 - Day1 Python基础学习——概述、基本数据类型、流程控制
		
一.Python基础学习 一.编程语言分类 1.简介 机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件 汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编 ...
 - 【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫
		
[网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫 广东职业技术学院 欧浩源 2017-10-14 1.引言 在数据量爆发式增长的大数据时代,网络与用户的沟 ...
 - python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
		
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例 新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
 - 0003.5-20180422-自动化第四章-python基础学习笔记--脚本
		
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
 - Web基础学习---HTML 第一天
		
Web基础学习---HTML 第一天 1 HTML标签 2.CSS Web开发基础HTML好吧离开Python几天...如何学好前端?? 多去看别人的网站.多看.多写.多练,(知乎.36Kr.)多练就 ...
 - python基础学习(起步)
		
目录 python基础学习(起步) 变量 常量 变量的内存管理 python垃圾回收机制 变量的其他赋值方式 今日编程小题 本人能力有限,若有偏颇之处请读者大大不吝赐教! 祝大家每天都在成长! pyt ...
 - Python基础学习二
		
Python基础学习二 1.编码 utf-8编码:自动将英文保存为1个字符,中文3个字符.ASCll编码被囊括在内. unicode:将所有字符保存为2给字符,容纳了世界上所有的编码. 2.字符串内置 ...
 - Python基础学习之环境搭建
		
Python如今成为零基础编程爱好者的首选学习语言,这和Python语言自身的强大功能和简单易学是分不开的.今天我们将带领Python零基础的初学者完成入门的第一步——环境搭建.本文会先来区分几个在P ...
 
随机推荐
- 《Pro Git》轻松学习版本控制
			
转自 https://kindlefere.com/post/333.html 什么是“版本控制”?我为什么要关心它呢?版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统.在 ...
 - Management Studio 插件生成安装包要点(以ProjkyAddin为例)
			
通过Visual Studio向导生成Management 插件框架就不说了,网上能搜到不少资料.本篇重点是说明怎么设计一个插件安装包,适用于Management Studio 2005 到2014的 ...
 - Linux 加载卷组
			
root 用户下执行: vgchange -ay vgdatamount /u01 vgdisplay 查看卷组
 - C#  希尔排序
			
引用:对于大规模乱序数组插入排序很慢,因为它只会交换相邻的元素,因此元素只能一点一点的从数组的一端移动到另一端.例如,如果主键最小的元素正好在数组的尽头,要将它挪到正确的位置就需要N-1次移动.希尔排 ...
 - python安装lib库
			
time:2015/11/11 双十一 一.初衷 看到一篇帖子[1],里面有python代码,就想实现一下,代码如下: import cv2 as cv import numpy as np from ...
 - PHP防SQL注入和XSS攻击
			
摘要: 就是通过把SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令.在用户名输入框中输入:' or 1=1#,密码随便输入,这时候的合成后的SQL ...
 - Matlab 之meshgrid, interp, griddata 用法和实例(转)
			
http://blog.sina.com.cn/s/blog_67f37e760101bu4e.html 实例结果http://wenku.baidu.com/link?url=SiGsFZIxuS1 ...
 - 绕过CDN查找网站真实IP方法收集
			
方法1很简单,使用各种多地 ping 的服务,查看对应 IP 地址是否唯一,如果不唯一多半是使用了CDN, 多地 Ping 网站有: http://ping.chinaz.com/ http://pi ...
 - (1)StringBuilder类和StringBuffer类    (2)日期相关的类    (3)集合框架    (4)List集合
			
1.StringBuilder类和StringBuffer类(查手册会用即可)1.1 基本概念 由于String类描述的字符串内容无法更改,若程序中出现大量类似的字符串时需要申请独立的内存空间单独保存 ...
 - sharepoint 2013 service pack 和 Hotfix 版本
			
方法1:Central Administration > System Settings > Manage servers in your farm (/_admin/FarmServer ...