python之路——爬虫实例
urlController.py
import bsController
from urllib import request class SpiderMain(object):
def __init__(self):
self.header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding': 'none',
'Accept-Language': 'en-US,en;q=0.8',
'Connection': 'keep-alive'}
self.bsManage = bsController.bsManage() def getUrl(self,rootUrl):
for i in range(1,500):
url = rootUrl+'%s' %i+'.html'
req = request.Request(url)
for h in self.header:
req.add_header(h, self.header[h])
try:
html = request.urlopen(req).read()
# print(html)
self.bsManage.getPageUrl(html,i)
req.close()
except request.URLError as e:
if hasattr(e, 'code'):
print('Error code:',e.code)
elif hasattr(e, 'reason'):
print('Reason:',e.reason) if __name__=='__main__':
rootUrl = 'http://www.meitulu.com/item/'
obj_root = SpiderMain()
obj_root.getUrl(rootUrl)
bsController.py
from bs4 import BeautifulSoup
from urllib import request
import os class bsManage:
def __init__(self):
self.pageUrl = 'http://www.meitulu.com/item/'
self.header = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding': 'none',
'Accept-Language': 'en-US,en;q=0.8',
'Connection': 'keep-alive'} # html是获取到的网页的html
# i表示i_x.html
def getPageUrl(self,html,i):
soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')
# 获取到最后一个连接
lastUrl = soup.find_all('div', {'id': 'pages'})[0].find_all('a')[-2]['href']
# print(html)
# print(lastUrl)
# 获取到最后一页的数字
if i < 10:
len = 1
elif i<100:
len = 2
elif i<1000:
len = 3
elif i<10000:
len = 4
lastPage = int(lastUrl[29+len:-5])
# 创建图片文件夹
if not os.path.exists('img'):
os.mkdir('img')
path = 'img/%s' %i
if not os.path.exists(path):
os.mkdir(path)
# 先爬取第一页 因为url格式不一样
# 获取所需要图片的连接 array
links = soup.find_all('img',class_='content_img')
for link in links:
name = str(link['src'])[-21:]
data = request.urlopen(link['src']).read()
img = open('img/%s/' %i + name,'wb+')
img.write(data)
img.close()
# print('%d 已经爬完' %i) # str = self.pageUrl + '%s' %i + '.html'
# print(str) # 每一个页面下有lastPage个小页面
for j in range(2,lastPage+1):
# 重新拼接url 获取到下一页的url
url = self.pageUrl + '%s_%s' %(i,j) + '.html'
self.saveImgWithUrl(url,i)
print('%d 已经爬完' %i) def saveImgWithUrl(self,url,i):
req = request.Request(url)
for h in self.header:
req.add_header(h, self.header[h])
try:
html = request.urlopen(req).read()
soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')
# 获取所需要图片的连接 array
links = soup.find_all('img', class_='content_img')
for link in links:
name = str(link['src'])[-21:]
data = request.urlopen(link['src']).read()
img = open('img/%s/' % i + name, 'wb+')
img.write(data)
img.close()
except request.URLError as e:
if hasattr(e, 'code'):
print('Error code:', e.code)
elif hasattr(e, 'reason'):
print('Reason:', e.reason)
python之路——爬虫实例的更多相关文章
- python之路 - 爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
- 嵩天老师python网课爬虫实例1的问题和解决方法
一,AttributeError: 'NoneType' object has no attribute 'children', 网页'tbody'没有子类 很明显,报错的意思是说tbody下面没有c ...
- python应用:爬虫实例(静态网页)
爬取起点中文网某本小说实例: # -*-coding:utf8-*- import requests import urllib import urllib2 from bs4 import Beau ...
- python应用:爬虫实例(动态网页)
以爬取搜狗图片为例,网页特点:采用“瀑布流”的方式加载图片,图片的真实地址存放在XHR中 #-*-coding:utf8-*- import requests import urllib import ...
- Python之路【第十九篇】:爬虫
Python之路[第十九篇]:爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用 ...
- Python之路【第八篇】:堡垒机实例以及数据库操作
Python之路[第八篇]:堡垒机实例以及数据库操作 堡垒机前戏 开发堡垒机之前,先来学习Python的paramiko模块,该模块机遇SSH用于连接远程服务器并执行相关操作 SSHClient ...
- Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
- Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...
- Python爬虫实例:爬取猫眼电影——破解字体反爬
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
随机推荐
- poj 1961 Period【求前缀的长度,以及其中最小循环节的循环次数】
Period Time Limit: 3000MS Memory Limit: 30000K Total Submissions: 14653 Accepted: 6965 Descripti ...
- Windows下svn客户端和服务器的安装使用
svn,全称subversion, 是目前用的较多的开源的版本管理工具.相信有些经历的程序员应该都听说过它. 通常的svn服务器是搭建在Linux中,不过如果作为个人或者单个小组使用的话,就可以把sv ...
- angularJs $injector
一 angularJS中几种注入方式 Spring中使用构造注入或者设值注入的方式,还需要做一些额外的操作,但是angular中只需要在需要的地方声明一下即可,类似模块的引用,因此十分方便. angu ...
- redis linux 基本命令
找到一个哥们 写的都是一步步打基础的学习东西 不光是知识也是学习方式 都值得学习.. reids 传送们-->> http://xuelianbobo.iteye.com/category ...
- 想挑战AlphaGO吗?先和PostgreSQL玩一玩?? PostgreSQL与人工智能(AI)
1月4日晚,随着古力认输,Master对人类顶尖高手的战绩停留在60胜0负1和,而令人尴尬的是这唯一一场和棋还是因为棋手掉线系统自动判和,并不是棋盘上的局势真的势均力敌了.包括聂卫平.柯洁.朴廷桓.井 ...
- 再探LIS
昨天讲课的时候突然想起来LIS还有一个东西没搞懂. 又去研究了下. LIS问题就是要求一个序列中最长不下降或上升子序列,而此问题应用较广,例如很多题会有这样的条件 对于i,j如果他们可以同时选取,则必 ...
- CSU1661: Query Mutiple
Description One day,Little-Y saw many numbers standing in a row. A question suddenly appeared in her ...
- 【PHP缩略图类】手机照片不能生成缩略图问题以及解决方式
[本文原创,谢绝转载] 一.出现的问题 这几天做了手机上传照片并裁出缩略图的接口的測试,发现无论怎么.生成的缩略图都是一片漆黑.:-( 然后就把这个缩略图类单拿出来进行測试,发现仅仅要是手机拍出来的照 ...
- 搜搜(www.soso.com),I 老虎油!
搜搜(www.soso.com),I 老虎油! 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用 ...
- [转] 消息系统该Push/Pull模式分析
信息推拉技术简介 “智能信息推拉(IIPP)技术”是在网上信息获取技术中加入了智能成份,从而有助于用户在海量信息中高效.及时地获取最新信息,提高了信 息系统主动信息服务的能力.如果引入基于IIPP的主 ...