2019-01-31 Python学习之BFS与DFS实现爬取邮箱
今天学习了python网络爬虫的简单知识
首先是一个爬取百度的按行读取和一次性爬取
逐行爬取
for line in urllib.request.urlopen("http://www.baidu.com"):
print(line.decode("utf-8"))
全部爬取
mystr = urllib.request.urlopen("http://www.baidu.com").read()
print(mystr.decode("utf-8"))
分别用栈和队列实现了DFS和BFS的邮箱爬取
用队列deque实现BFS
import re
import urllib
import urllib.request
from collections import deque
def getallemail(data): #邮箱的正则表达式获取所有的邮箱
try:
mailregex = re.compile(r"([A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4})", re.IGNORECASE)
mylist = mailregex.findall(data)
return mylist
except:
return []
def getdata(url): #用utf-8编码读取url返回网页源代码
try:
data = urllib.request.urlopen(url).read().decode("utf-8")
return data
except:
return ""
def geteveryurl(data): #获得网页所有的url
alllist = []
mylist1 = getallhttp(data)
mylist2 = []
if len(mylist1)>0:
mylist2 = getabsurl(mylist1[0],data) #mylist[0]作用是提取元素
alllist.extend(mylist1)
alllist.extend(mylist2)
return alllist
def gethostname(httpstr):
try:
mailregex = re.compile(r"(http://\S*?)/",re.IGNORECASE) #预编译提取主机名的regex
mylist = mailregex.findall(httpstr)
if len(mylist)==0:
return None
else:
return mylist[0]
except:
return None
def getabsurl(url,data):
try:
regex = re.compile("href=\"(.*?)\"",re.IGNORECASE) #预编译提取href正则表达式
httplist = regex.findall(data)
newhttplist = httplist.copy() #进行一次深拷贝,以进行后面的删除行为
for data in newhttplist:
if data.find("http://")!=-1: #如果其中包含http
httplist.remove(data) #在原list中remove此data
if data.find("javascript")!=-1:
httplist.remove(data) #同理
hostname = gethostname(url)
if hostname!=None:
for i in range(len(httplist)):
httplist[i] = hostname + httplist[i]
return httplist
except:
return []
def getallhttp(data):#找到所有的http
try:
mailregex = re.compile(r"(http://\S*?)[\"|>|)]",re.IGNORECASE)
mylist = mailregex.findall(data)
return mylist
except:
return[]
def BFS(urlstr):
urlqueue = deque([]) #新建一个队列
urlqueue.append(urlstr) #队列中加入最初的url
while len(urlqueue)!=0: #判断队列是否为空
url = urlqueue.popleft() #队列弹出的数据(url)
print(url) #打印url连接
pagedata = getdata(url) #获取网页源代码
emaillist = getallemail(pagedata) #提取邮箱到列表
if len(emaillist)!=0: #若邮箱列表不为空
for email in emaillist:
print(email) #打印所有的邮箱
newurllist = geteveryurl(pagedata) #抓取该网页的所有的url
if len(newurllist)!=0: #若列表不为空
for urlstr in newurllist:
if urlstr not in urlqueue:
urlqueue.append(urlstr) #若url不在该队列中,则将该url加入队列中
BFS(input("请输入你想爬取的最初页面"))
用栈stack实现DFS
import re
import urllib
import urllib.request
def getallemail(data): #邮箱的正则表达式获取所有的邮箱
try:
mailregex = re.compile(r"([A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4})", re.IGNORECASE)
mylist = mailregex.findall(data)
return mylist
except:
return []
def getdata(url): #用utf-8编码读取url返回网页源代码
try:
data = urllib.request.urlopen(url).read().decode("utf-8")
return data
except:
return ""
def geteveryurl(data): #获得网页所有的url
alllist = []
mylist1 = getallhttp(data)
mylist2 = []
if len(mylist1)>0:
mylist2 = getabsurl(mylist1[0],data) #mylist[0]作用是提取元素
alllist.extend(mylist1)
alllist.extend(mylist2)
return alllist
def gethostname(httpstr):
try:
mailregex = re.compile(r"(http://\S*?)/",re.IGNORECASE) #预编译提取主机名的regex
mylist = mailregex.findall(httpstr)
if len(mylist)==0:
return None
else:
return mylist[0]
except:
return None
def getabsurl(url,data):
try:
regex = re.compile("href=\"(.*?)\"",re.IGNORECASE) #预编译提取href正则表达式
httplist = regex.findall(data)
newhttplist = httplist.copy() #进行一次深拷贝,以进行后面的删除行为
for data in newhttplist:
if data.find("http://")!=-1: #如果其中包含http
httplist.remove(data) #在原list中remove此data
if data.find("javascript")!=-1:
httplist.remove(data) #同理
hostname = gethostname(url)
if hostname!=None:
for i in range(len(httplist)):
httplist[i] = hostname + httplist[i]
return httplist
except:
return []
def getallhttp(data):#找到所有的http
try:
mailregex = re.compile(r"(http://\S*?)[\"|>|)]",re.IGNORECASE)
mylist = mailregex.findall(data)
return mylist
except:
return[]
def DFS(urlstr):
visitlist = [] #代表已经访问过的url,防止深度遍历出现死循环
urlstack=[] #栈
urlstack.append(urlstr)
while len(urlstack)!=0:
url = urlstack.pop()
print(url) #打印url链接
if url not in visitlist:
pagedata = getdata(url)
emaillist = getallemail(pagedata)
if len(emaillist)!=0:
for email in emaillist:
print(email)
newurllist = geteveryurl(pagedata)
if len(newurllist)!=0:
for urlstr in newurllist :
if urlstr not in urlstack:
urlstack.append(urlstr)
visitlist.append(url)
DFS(input("请输入你想爬取的最初页面"))
#提取数据容易出现广度遍历
#深度遍历容易出现死循环
- 其中需要注意的是,DFS容易出现死循环现象,故使用visitlist来避免,数据提取适合使用广度遍历实现,因为深度遍历是一撸到底,适合挖掘网站的层数。
代码来自尹成python教学
2019-01-31 Python学习之BFS与DFS实现爬取邮箱的更多相关文章
- 算法学习之BFS、DFS入门
算法学习之BFS.DFS入门 0x1 问题描述 迷宫的最短路径 给定一个大小为N*M的迷宫.迷宫由通道和墙壁组成,每一步可以向相邻的上下左右四格的通道移动.请求出从起点到终点所需的最小步数.如果不能到 ...
- Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
- [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫 版权声明: ...
- Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
- Python网页解析库:用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
- python爬虫学习(三):使用re库爬取"淘宝商品",并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果 从url连接中可以得到搜索商品的关键字是 ...
- 爬虫(二)Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
- python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子 使用的环境是python2.7, scrapy1.2.0 首先创建项目 在要建立项目的目 ...
- Python爬虫入门教程: 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...
随机推荐
- 王艳 201771010127《面向对象程序设计(java)》第十六周学习总结
一:理论部分 1.程序:是一段静态的代码,它是应用程序执行的蓝本. 2.进程:是程序的一次动态执行,它对应了从代码加载.执行至执行完毕的一个完整过程. 3.多线程:是进程执行过程中产生的多条执行线索. ...
- 【MySQL】MyISAM和InnoDB存储引擎区别详解
MyISAM 主键索引(引擎的索引文件和数据文件是分离的) (图片来自:https://blog.csdn.net/u010922732/article/details/82994253) 非主键索引 ...
- vue2.0+mint-ui 仿资讯类顶导航内容联动优化
<template><div><div class="navbox"><div class="nav" id=&quo ...
- 【scrapy运行姿势】scrapy.cmdline.execute
scrapy.cmdline.execute scrapy的cmdline命令 1.启动爬虫的命令为:scrapy crawl (爬虫名) 2.还可以通过以下方式来启动爬虫 方法一:创建一个.py文件 ...
- TopK (MinK) 实现
概述:基于快排原理找到最小的K个元素,属于Top K问题.注意,使用快排原理找前K小问题不需要对整个数组进行O(nlogn)的排序.我们只要找K所在的区间进行递归调用,即每次只要对数据的一半进行递归调 ...
- 基于Hadoop不同版本搭建hive集群(附配置文件)
本教程采用了两种方案 一种是hive-1.21版本,hadoop版本为hadoop2.6.5 还有一种是主要讲基于hadoop3.x hive的搭建 先来第一种 一.本地方式(内嵌derby) 步骤 ...
- idea本地Maven仓库不能下载依赖jar包的解决方案
1.确认maven是否正正常安装,是否配置了环境变量,可以通过命令 mvn -version 看是否显示maven的版本信息. 2.检查maven的setting.xml配置文件中本地仓库位置配置是否 ...
- Jenkins漏洞利用复现
一.未授权访问 访问url: http://172.16.20.134:8080/script 命令执行 println "ls -al".execute().text 也可以利用 ...
- 用python做时间序列预测一:初识概念
利用时间序列预测方法,我们可以基于历史的情况来预测未来的情况.比如共享单车每日租车数,食堂每日就餐人数等等,都是基于各自历史的情况来预测的. 什么是时间序列? 时间序列,是指同一个变量在连续且固定的时 ...
- 【HBase】 常用命令
创建表 hbase(main):006:0> create 'goods_zc','type' 0 row(s) in 1.3090 seconds => Hbase::Table - g ...