要离线下载易百教程网站中的所有关于Python的教程,需要将Python教程的首页作为种子url:http://www.yiibai.com/python/,然后按照广度优先(广度优先,使用队列;深度优先,使用栈),依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取,使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url,获取到了文章的url,使用Python根据url生成html文件十分容易。


  1. import re
  2. import urllib.request
  3. import urllib
  4. from collections import deque
  5. # 保存文件的后缀
  6. SUFFIX='.html'
  7. # 提取文章标题的正则表达式
  8. REX_TITLE=r'<title>(.*?)</title>'
  9. # 提取所需链接的正则表达式
  10. REX_URL=r'/python/(.+?).html'
  11. # 种子url,从这个url开始爬取
  12. BASE_URL='http://www.yiibai.com/python/'
  13. # 将获取到的文本保存为html文件
  14. def saveHtml(file_name,file_content):
  15. #    注意windows文件命名的禁用符,比如 /
  16.     with open (file_name.replace('/','_')+SUFFIX,"wb") as f:
  17. #   写文件用bytes而不是str,所以要转码
  18.         f.write(bytes(file_content, encoding = "utf8"))
  19. #   获取文章标题
  20. def getTitle(file_content):
  21.     linkre = re.search(REX_TITLE,file_content)
  22.     if(linkre):
  23.         print('获取文章标题:'+linkre.group(1))
  24.         return linkre.group(1)
  25.  
  26. #   爬虫用到的两个数据结构,队列和集合
  27. queue = deque()
  28. visited = set()
  29. #   初始化种子链接 
  30. queue.append(BASE_URL)
  31. count = 0
  32.  
  33. while queue:
  34.   url = queue.popleft()  # 队首元素出队
  35.   visited |= {url}  # 标记为已访问
  36.  
  37.   print('已经抓取: ' + str(count) + '   正在抓取 <---  ' + url)
  38.   count += 1
  39.   urlop = urllib.request.urlopen(url)
  40.   # 只处理html链接
  41.   if 'html' not in urlop.getheader('Content-Type'):
  42.     continue
  43.  
  44.   # 避免程序异常中止
  45.   try:
  46.     data = urlop.read().decode('utf-8')
  47.     title=getTitle(data);
  48.     # 保存文件
  49.     saveHtml(title,data)
  50.   except:
  51.     continue
  52.  
  53.   # 正则表达式提取页面中所有链接, 并判断是否已经访问过, 然后加入待爬队列
  54.   linkre = re.compile(REX_URL)
  55.   for sub_link in linkre.findall(data):
  56.       sub_url=BASE_URL+sub_link+SUFFIX;
  57. # 已经访问过,不再处理
  58.       if sub_url in visited:
  59.           pass
  60.       else:
  61.           # 设置已访问
  62.           visited |= {sub_url}
  63.           # 加入队列
  64.           queue.append(sub_url)
  65.           print('加入队列 --->  ' + sub_url)

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

  1. 【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验

    一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...

  2. python3 爬虫之爬取安居客二手房资讯(第一版)

    #!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...

  3. python3爬虫应用--爬取网易云音乐(两种办法)

    一.需求 好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...

  4. 使用htmlparse爬虫技术爬取电影网页的全部下载链接

    昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...

  5. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

  6. from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

  7. 使用htmlparser爬虫技术爬取电影网页的全部下载链接

    昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...

  8. 【Python】【爬虫】爬取酷狗TOP500

    好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置 在此之前需要下载一个谷 ...

  9. Python爬虫之爬取站内所有图片

    title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

  1. JNI之——&#39;cl&#39; 不是内部或外部命令,也不是可执行的程序或批处理文件

    转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46604315 问题的出现:     今天卸载了VS2010,重装vs2008后.发 ...

  2. [JZOJ3385] [NOIP2013模拟] 黑魔法师之门 解题报告(并查集)

    Description 经过了16个工作日的紧张忙碌,未来的人类终于收集到了足够的能源.然而在与Violet星球的战争中,由于Z副官的愚蠢,地球的领袖applepi被邪恶的黑魔法师Vani囚禁在了Vi ...

  3. [NOIP2015模拟10.22] 最大子矩阵 解题报告(单调栈)

    Description 我们将矩阵A中位于第i行第j列的元素记作A[i,j].一个矩阵A是酷的仅当它满足下面的条件:       A[1,1]+A[r,s]<=A[1,s]+A[r,1](r,s ...

  4. VS C/C++ 调用lua库(编译出错)

    导入 lua.h 之类的头文件后,编译含有Lua函数的时候,可能会出现如下错误: 1>main.obj : error LNK2019: 无法解析的外部符号_luaL_checkinteger, ...

  5. C#篇(三)——函数传参之引用类型和值类型

    首先应该认清楚在C#中只有两种类型: 1.引用类型(任何称为"类"的类型) 2.值类型(结构或枚举) 先来认识一下引用类型和值类型的区别: 函数传参之引用类型: 1.先来一个简单的 ...

  6. jsp留言板雏形

    编写一个简单的留言簿,实现添加留言和显示留言内容的功能 <%@ page language="java" contentType="text/html; chars ...

  7. windows 下读取文件名称和类型

    def getFileWithType(self,xname): # xname='E:\\python\\recievedir\\data.pkl' # xname='E:\python\test. ...

  8. poj 3613 Cow Relays(矩阵的图论意义)

    题解 用一个矩阵来表示一个图的边的存在性,即矩阵C[i,j]=1表示有一条从i到j的有向边C[i,j]=0表示没有从i到j的边.这个矩阵的k次方后C[i,j]就表示有多少条从i到j恰好经过k条边的路径 ...

  9. shell清除日志小脚本

    #!/bin/bash #清除日志脚本 LOG_DIR=/var/log ROOT_UID=0 #用户id为0的 ,即为root if [ "$UID" -ne "$RO ...

  10. 中断函数中不能使用printf的原因

    vxworks 中断处理程序之所以不用printf,本质在于printf是将信息输出到标准输出设备(STDOUT)中, 整个标准输出设备是一个全局变量,由于有semTake操作,那么就会发生阻塞,vx ...