Python3爬虫之爬取某一路径的所有html文件

要离线下载易百教程网站中的所有关于Python的教程，需要将Python教程的首页作为种子url：http://www.yiibai.com/python/，然后按照广度优先（广度优先，使用队列；深度优先，使用栈），依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取，使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url，获取到了文章的url，使用Python根据url生成html文件十分容易。






import re





import urllib.request





import urllib





from collections import deque





# 保存文件的后缀





SUFFIX='.html'





# 提取文章标题的正则表达式





REX_TITLE=r'<title>(.*?)</title>'





# 提取所需链接的正则表达式





REX_URL=r'/python/(.+?).html'





# 种子url，从这个url开始爬取





BASE_URL='http://www.yiibai.com/python/'





 





 





# 将获取到的文本保存为html文件





def saveHtml(file_name,file_content):





#    注意windows文件命名的禁用符，比如 /





    with open (file_name.replace('/','_')+SUFFIX,"wb") as f:





#   写文件用bytes而不是str，所以要转码





        f.write(bytes(file_content, encoding = "utf8"))





#   获取文章标题





def getTitle(file_content):





    linkre = re.search(REX_TITLE,file_content)





    if(linkre):





        print('获取文章标题：'+linkre.group(1))





        return linkre.group(1)





 





#   爬虫用到的两个数据结构，队列和集合





queue = deque()





visited = set()





#   初始化种子链接 





queue.append(BASE_URL)





count = 0





 





while queue:





  url = queue.popleft()  # 队首元素出队





  visited |= {url}  # 标记为已访问





 





  print('已经抓取: ' + str(count) + '   正在抓取 <---  ' + url)





  count += 1





  urlop = urllib.request.urlopen(url)





  # 只处理html链接





  if 'html' not in urlop.getheader('Content-Type'):





    continue





 





  # 避免程序异常中止





  try:





    data = urlop.read().decode('utf-8')





    title=getTitle(data);





    # 保存文件





    saveHtml(title,data)





  except:





    continue





 





  # 正则表达式提取页面中所有链接, 并判断是否已经访问过, 然后加入待爬队列





  linkre = re.compile(REX_URL)





  for sub_link in linkre.findall(data):





      sub_url=BASE_URL+sub_link+SUFFIX;





# 已经访问过，不再处理





      if sub_url in visited:





          pass





      else:





          # 设置已访问





          visited |= {sub_url}





          # 加入队列





          queue.append(sub_url)





          print('加入队列 --->  ' + sub_url)

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
python3爬虫应用--爬取网易云音乐（两种办法）
一.需求好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

9、包、访问控制、import、static、static代码块、final、抽象类、接口、instanceof、多态
1.包三级命名:公司的尾缀(com).公司名字(baidu).业务(Sale) java.lang:默认包:String.Math,Object,System java.util:工具包 java. ...
里根上台时国债只占GDP的30%
学里根是刻舟求剑,关键是钱从哪来 5 里根主要靠借钱,这是冷战红利,美国打完二战国债占了GDP的120%,然后总量就没怎么增加,但战后GDP快速增长,结果国债占GDP的比例连续下降,打越战登月石油危 ...
利用Matlab自带的深度学习工具进行车辆区域检测与车型识别【Github更新！！！】（三）
前言对前面的东西更新了一下.地方包括: 1.GUI的更新,更友好的用户界面 2.支持用手直接画车辆区域,并且识别出来 3.将proposal.detect.fine-grained classifi ...
2013亚洲区域赛长沙站 ZOJ 3732 Graph Reconstruction
题目链接 Graph Reconstruction 题意给你无向图每个点的度数, 问是否存在唯一解, 存在输出唯一解, 多解输出两个, 无解输出IMPOSSIBLE 思路这里用到了 Havel-H ...
IE(8~11+) 可用右键加速器
必应词典工具立即安装: 网络安装:http://dict.bing.com.cn/tools_dl.aspx?dl=ie8acc&mkt=ZH-CN 开发示例: <?xml versi ...
原生js实现发送验证码
var form = { myfun:function(){ var el = form.config().el; var button = form.config().button; var tim ...
js循环匹配组合成新对象或js循环组合新数据
var Arry=[ {name: "vehicleTravelLicenseCopyBack", id: "a1"}, {name: "vehicl ...
dist文件夹、src文件夹、dest文件夹是什么意思？
dist文件夹是编译后或者压缩后的代码,终发布版本的代码 src文件夹是源码文件 dest文件夹为压缩包文件夹
[洛谷P1939]【模板】矩阵加速（数列）
题目大意:给你一个数列a,规定$a[1]=a[2]=a[3]=1$,$a[i]=a[i-1]+a[i-3](i>3)$求$a[n]\ mod\ 10^9+7$的值. 解题思路:这题看似是很简单的 ...
Linux 下安装 redis 详情
一:将redis 压缩包上传到 Linux usr/local下 (一):在local 下创建一个 redis 目录 (二):上传redis压缩包到此目录下. 二:Linux 进入 local目录下 ...

Python3爬虫之爬取某一路径的所有html文件

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

随机推荐

热门专题