今天学习了python网络爬虫的简单知识

首先是一个爬取百度的按行读取和一次性爬取

逐行爬取

for line in urllib.request.urlopen("http://www.baidu.com"):

    print(line.decode("utf-8"))

全部爬取

mystr = urllib.request.urlopen("http://www.baidu.com").read()

print(mystr.decode("utf-8"))

分别用栈和队列实现了DFS和BFS的邮箱爬取

用队列deque实现BFS

import re

import urllib

import urllib.request

from collections import deque

def getallemail(data):  #邮箱的正则表达式获取所有的邮箱

    try:

        mailregex = re.compile(r"([A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4})", re.IGNORECASE)

        mylist = mailregex.findall(data)

        return mylist

    except:

        return []

def getdata(url):   #用utf-8编码读取url返回网页源代码

    try:

        data = urllib.request.urlopen(url).read().decode("utf-8")

        return data

    except:

        return ""

def geteveryurl(data):  #获得网页所有的url

    alllist = []

    mylist1 = getallhttp(data)

    mylist2 = []

    if len(mylist1)>0:

        mylist2 = getabsurl(mylist1[0],data)    #mylist[0]作用是提取元素

    alllist.extend(mylist1)

    alllist.extend(mylist2)

    return alllist

def gethostname(httpstr):

    try:

        mailregex = re.compile(r"(http://\S*?)/",re.IGNORECASE) #预编译提取主机名的regex

        mylist = mailregex.findall(httpstr)

        if len(mylist)==0:

            return None

        else:

            return mylist[0]

    except:

        return None

def getabsurl(url,data):

    try:

        regex = re.compile("href=\"(.*?)\"",re.IGNORECASE) #预编译提取href正则表达式

        httplist = regex.findall(data)

        newhttplist = httplist.copy()  #进行一次深拷贝，以进行后面的删除行为

        for data in newhttplist:

            if data.find("http://")!=-1:  #如果其中包含http

                httplist.remove(data) #在原list中remove此data

            if data.find("javascript")!=-1:

                httplist.remove(data) #同理

        hostname = gethostname(url)

        if hostname!=None:

            for i in range(len(httplist)):

                httplist[i] = hostname + httplist[i]

        return httplist

    except:

        return []

def getallhttp(data):#找到所有的http

    try:

        mailregex = re.compile(r"(http://\S*?)[\"|>|)]",re.IGNORECASE)

        mylist = mailregex.findall(data)

        return mylist

    except:

        return[]

def BFS(urlstr):

    urlqueue = deque([]) #新建一个队列

    urlqueue.append(urlstr) #队列中加入最初的url

    while len(urlqueue)!=0: #判断队列是否为空

        url = urlqueue.popleft()  #队列弹出的数据（url）

        print(url)  #打印url连接

        pagedata = getdata(url)  #获取网页源代码

        emaillist = getallemail(pagedata)  #提取邮箱到列表

        if len(emaillist)!=0:       #若邮箱列表不为空

            for email in emaillist:

                print(email)        #打印所有的邮箱

        newurllist = geteveryurl(pagedata) #抓取该网页的所有的url

        if len(newurllist)!=0:      #若列表不为空

            for urlstr in newurllist:

                if urlstr not in urlqueue:

                    urlqueue.append(urlstr)     #若url不在该队列中，则将该url加入队列中

BFS(input("请输入你想爬取的最初页面"))

用栈stack实现DFS

import re

import urllib

import urllib.request

def getallemail(data):  #邮箱的正则表达式获取所有的邮箱

    try:

        mailregex = re.compile(r"([A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4})", re.IGNORECASE)

        mylist = mailregex.findall(data)

        return mylist

    except:

        return []

def getdata(url):   #用utf-8编码读取url返回网页源代码

    try:

        data = urllib.request.urlopen(url).read().decode("utf-8")

        return data

    except:

        return ""

def geteveryurl(data):  #获得网页所有的url

    alllist = []

    mylist1 = getallhttp(data)

    mylist2 = []

    if len(mylist1)>0:

        mylist2 = getabsurl(mylist1[0],data)    #mylist[0]作用是提取元素

    alllist.extend(mylist1)

    alllist.extend(mylist2)

    return alllist

def gethostname(httpstr):

    try:

        mailregex = re.compile(r"(http://\S*?)/",re.IGNORECASE) #预编译提取主机名的regex

        mylist = mailregex.findall(httpstr)

        if len(mylist)==0:

            return None

        else:

            return mylist[0]

    except:

        return None

def getabsurl(url,data):

    try:

        regex = re.compile("href=\"(.*?)\"",re.IGNORECASE) #预编译提取href正则表达式

        httplist = regex.findall(data)

        newhttplist = httplist.copy()  #进行一次深拷贝，以进行后面的删除行为

        for data in newhttplist:

            if data.find("http://")!=-1:  #如果其中包含http

                httplist.remove(data) #在原list中remove此data

            if data.find("javascript")!=-1:

                httplist.remove(data) #同理

        hostname = gethostname(url)

        if hostname!=None:

            for i in range(len(httplist)):

                httplist[i] = hostname + httplist[i]

        return httplist

    except:

        return []

def getallhttp(data):#找到所有的http

    try:

        mailregex = re.compile(r"(http://\S*?)[\"|>|)]",re.IGNORECASE)

        mylist = mailregex.findall(data)

        return mylist

    except:

        return[]

def DFS(urlstr):

    visitlist = [] #代表已经访问过的url，防止深度遍历出现死循环

    urlstack=[]         #栈

    urlstack.append(urlstr)

    while len(urlstack)!=0:

        url = urlstack.pop()

        print(url)  #打印url链接

        if url not in visitlist:

            pagedata = getdata(url)

            emaillist = getallemail(pagedata)

            if len(emaillist)!=0:

                for email in emaillist:

                    print(email)

            newurllist = geteveryurl(pagedata)

            if len(newurllist)!=0:

                for urlstr in newurllist :

                    if urlstr not in urlstack:

                        urlstack.append(urlstr)

            visitlist.append(url)

DFS(input("请输入你想爬取的最初页面"))

#提取数据容易出现广度遍历

#深度遍历容易出现死循环

其中需要注意的是，DFS容易出现死循环现象，故使用visitlist来避免，数据提取适合使用广度遍历实现，因为深度遍历是一撸到底，适合挖掘网站的层数。

代码来自尹成python教学

2019-01-31 Python学习之BFS与DFS实现爬取邮箱的更多相关文章

算法学习之BFS、DFS入门
算法学习之BFS.DFS入门 0x1 问题描述迷宫的最短路径给定一个大小为N*M的迷宫.迷宫由通道和墙壁组成,每一步可以向相邻的上下左右四格的通道移动.请求出从起点到终点所需的最小步数.如果不能到 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子使用的环境是python2.7, scrapy1.2.0 首先创建项目在要建立项目的目 ...
Python爬虫入门教程： 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...

随机推荐

poj1904 完美匹配+Tarjan
King's Quest Time Limit: 15000MS Memory Limit: 65536K Total Submissions: 9460 Accepted: 3497 C ...
Java基础以及变量和运算符、包机制、javadoc生成
目录注释.标识符.关键字注释标识符关键字标识符注意点数据类型强类型语言弱类型语言 Java的数据类型基本类型(primitive type) 数值类型 boolean类型什么是字节 ...
客服端负载均衡：Spring Cloud Ribbon
Spring Cloud Ribbon是一个基于HTTP和TCP的客户端负载均衡工具.服务间的调用,API网关的请求转发都是通过Ribbon实现的. 在微服务架构中使用客户端负载均衡需要两步: (1) ...
MyBatis——Mapped Statements collection does not contain value for XXX
报错信息: Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql. ...
[json-server] RESTful API 中，取主数据时，同时获取多个关联子表的数据
项目背景: back-end:ASP.NET Core WebAPI front-end:Vue(+vue-router +vuex +axios)(webpack)(json-server + mo ...
PreparedStatement实现针对不同表的通用查询操作
PreparedStatement实现针对不同表的通用查询操作:查询一样和多行 PreparedStatementQueryTest package com.aff.PreparedStatement ...
Rocket - 断句 - Diplomatic Design Patterns: A TileLink Case Study
https://mp.weixin.qq.com/s/afRVgTCYs1Mxu898uSmVaQ 整理一篇介绍Diplomacy和TileLink的文章. 原文链接: https://carrv ...
jchdl - RTL实例 - MOS6502 ALU (Verilog)
https://mp.weixin.qq.com/s/jLUz757FQZjMEYzYb2AIww MOS6502是简单,但是曾经相当流行的一款CPU.网上有很多模拟程序可供学习使用.这里使用一个 ...
使用turtle库绘制同心圆
import turtle as t t.pensize(3) t.setup(600,600,50,50) t.pencolor("yellow") t.penup() t.pe ...
移动端border：1px问题解决方案
了解设备像素和css像素的因该知道,通常我们在写移动端时,是按照设计稿标注的像素除以设备的DPR来写真实的像素, 比如在iPhone6上,我们写的20px字体世界上在视觉效应上有20px; 所以当我们 ...

2019-01-31 Python学习之BFS与DFS实现爬取邮箱

今天学习了python网络爬虫的简单知识

首先是一个爬取百度的按行读取和一次性爬取

分别用栈和队列实现了DFS和BFS的邮箱爬取

用队列deque实现BFS

用栈stack实现DFS

2019-01-31 Python学习之BFS与DFS实现爬取邮箱的更多相关文章

随机推荐

热门专题