Python3爬虫之爬取某一路径的所有html文件

要离线下载易百教程网站中的所有关于Python的教程，需要将Python教程的首页作为种子url：http://www.yiibai.com/python/，然后按照广度优先（广度优先，使用队列；深度优先，使用栈），依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取，使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url，获取到了文章的url，使用Python根据url生成html文件十分容易。






import re





import urllib.request





import urllib





from collections import deque





# 保存文件的后缀





SUFFIX='.html'





# 提取文章标题的正则表达式





REX_TITLE=r'<title>(.*?)</title>'





# 提取所需链接的正则表达式





REX_URL=r'/python/(.+?).html'





# 种子url，从这个url开始爬取





BASE_URL='http://www.yiibai.com/python/'





 





 





# 将获取到的文本保存为html文件





def saveHtml(file_name,file_content):





#    注意windows文件命名的禁用符，比如 /





    with open (file_name.replace('/','_')+SUFFIX,"wb") as f:





#   写文件用bytes而不是str，所以要转码





        f.write(bytes(file_content, encoding = "utf8"))





#   获取文章标题





def getTitle(file_content):





    linkre = re.search(REX_TITLE,file_content)





    if(linkre):





        print('获取文章标题：'+linkre.group(1))





        return linkre.group(1)





 





#   爬虫用到的两个数据结构，队列和集合





queue = deque()





visited = set()





#   初始化种子链接 





queue.append(BASE_URL)





count = 0





 





while queue:





  url = queue.popleft()  # 队首元素出队





  visited |= {url}  # 标记为已访问





 





  print('已经抓取: ' + str(count) + '   正在抓取 <---  ' + url)





  count += 1





  urlop = urllib.request.urlopen(url)





  # 只处理html链接





  if 'html' not in urlop.getheader('Content-Type'):





    continue





 





  # 避免程序异常中止





  try:





    data = urlop.read().decode('utf-8')





    title=getTitle(data);





    # 保存文件





    saveHtml(title,data)





  except:





    continue





 





  # 正则表达式提取页面中所有链接, 并判断是否已经访问过, 然后加入待爬队列





  linkre = re.compile(REX_URL)





  for sub_link in linkre.findall(data):





      sub_url=BASE_URL+sub_link+SUFFIX;





# 已经访问过，不再处理





      if sub_url in visited:





          pass





      else:





          # 设置已访问





          visited |= {sub_url}





          # 加入队列





          queue.append(sub_url)





          print('加入队列 --->  ' + sub_url)

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
python3爬虫应用--爬取网易云音乐（两种办法）
一.需求好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

2014 百度之星 1003 题解 Xor Sum
Xor Sum Problem Description Zeus 和 Prometheus 做了一个游戏,Prometheus 给 Zeus 一个集合,集合中包括了N个正整数,随后 Prometheu ...
POJ 3256 Cow Picnic
Cow Picnic Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 4928 Accepted: 2019 Descri ...
Kali linux2.0里Metasploit的服务类型探测
不多说,直接上干货! 在MSF终端中,可以输入search name:_version命令查看所有可用的服务查点模块该命令的执行结果如下: root@kali:~# msfconsole ..... ...
jsp输出九九乘法表
<% String st = ""; for(int i = 1; i <= 9; i++){ for(int j = 1; j <= i; j++){ st + ...
CUDA笔记12
这几天配置了新环境,而且流量不够了就没写. 看到CSDN一个人写了些机器学习的笔记,于是引用一下http://blog.csdn.net/yc461515457/article/details/504 ...
虚拟机下安装mysql
虚拟机下CentOS6.8下安装MYSQL5.6 方法: 整理修改于 http://www.cnblogs.com/liuyi2614/p/6382183.html 开始时: 普通用户是$ root用 ...
<<大学>>原文
大学之道,在明明德,在亲民,在止于至善.知止而后有定,定而后能静,静而后能安,安而后能虑,虑而后能得.物有本末,事有终始,知所先后,则近道矣. 古之欲明明德于天下者,先治其国,欲治其国者,先齐其家:欲 ...
12 条实用的 zypper 命令范例（转载）
12 条实用的 zypper 命令范例作者: Kerneltalks 译者: LCTT cycoe | 2018-12-12 13:29 zypper 是 Suse Linux 系统的包和补丁管理器 ...
caffe(11) 图像数据转换成db文件
在深度学习的实际应用中,我们经常用到的原始数据是图片文件,如jpg,jpeg,png,tif等格式的,而且有可能图片的大小还不一致.而在caffe中经常使用的数据类型是lmdb或leveldb,因此就 ...
NodeJS学习笔记 (28)流操作-stream(ok)
模块概览 nodejs的核心模块,基本上都是stream的的实例,比如process.stdout.http.clientRequest. 对于大部分的nodejs开发者来说,平常并不会直接用到str ...

Python3爬虫之爬取某一路径的所有html文件

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

随机推荐

热门专题