python 爬虫（四）

爬遍整个网络

1 当我们访问整个网络的时候，我们不可避免的会访问不同的网站，但是不同的网站会有完全不同的结构和内容...

现在一步一步的构建访问整个网络的脚本

I 从一个网站开始，每一次都爬向不同的网站。如果在一个页面找不到指向其他网站的链接，获取本网站其他界面信息，直到找到其他网站的链接。

# -*- coding:utf-8 -*-  

from urllib.request import urlopen

from urllib.error import HTTPError

from bs4 import BeautifulSoup

from random import choice

import re

basename = "http://en.wikipedia.org"

visitedpages = set()

def getInternalLinks(bsObj,includeUrl):

    return [eachlink.attrs['href'] for eachlink in bsObj.find_all("a",href=re.compile("^(/|.*" + includeUrl + ")")) if 'href' in eachlink.attrs]

def getExternalLinks(bsObj,excludeUrl):

    return [eachlink.attrs['href'] for eachlink in bsObj.find_all("a",href=re.compile("^(http|www)((?!" + excludeUrl + ").)*$")) if 'href' in eachlink.attrs]

def splitAddress(address):

    addressParts = address.replace("http://","").split("/")

    return addressParts

def getRandomExternalLink(startingPage):

    html = urlopen(startingPage)

    with html:

        bsObj = BeautifulSoup(html,"html.parser")

    externalLinks = getExternalLinks(bsObj,splitAddress(startingPage)[0])

    if len(externalLinks) == 0:

        internalLinks = getInternalLinks(bsObj, splitAddress(startingPage)[0])

        return choice(internalLinks)

    else:

        return choice(externalLinks)

def followExternalLink(startingPage):

    externalLink = getRandomExternalLink("http://www.oreilly.com/")

    if externalLink in visitedpages:

        print("visited")

    else:

        print("the random external link is   " + externalLink)

        visitedpages.add(externalLink)

        followExternalLink(externalLink)

if __name__ == "__main__":

    #print(splitAddress("http://www.oreilly.com/")[0])

    #print(getRandomExternalLink("http://www.oreilly.com/"))

    followExternalLink("http://www.oreilly.com/")

II 从一个网站开始，查找这个网站所有界面信息，获取整个网站指向其他网站的链接

# -*- coding:utf-8 -*-  

from urllib.request import urlopen

from urllib.error import HTTPError

from bs4 import BeautifulSoup

from random import choice

import re

def getInternalLinks(bsObj,includeUrl):

    return [eachlink.attrs['href'] for eachlink in bsObj.find_all("a",href=re.compile("^(/|.*" + includeUrl + ")")) if 'href' in eachlink.attrs]

def getExternalLinks(bsObj,excludeUrl):

    return [eachlink.attrs['href'] for eachlink in bsObj.find_all("a",href=re.compile("^(http|www)((?!" + excludeUrl + ").)*$")) if 'href' in eachlink.attrs]

def splitAddress(address):

    addressParts = address.replace("http://","").split("/")

    return addressParts

allINlinks = set()

allEXlinks = set()

def getAllexternalLinks(startPage):

    try:

        with urlopen(startPage) as html:

            bsObj = BeautifulSoup(html,"html.parser")

    except HTTPError as e:

        print(e)

    else:

        allinternallinks = getInternalLinks(bsObj,splitAddress(startPage)[0])

        allexternallinks = getExternalLinks(bsObj,splitAddress(startPage)[0])

        print("************external*******************************")

        for eachexternallink in allexternallinks:

            if eachexternallink not in allEXlinks:

                allEXlinks.add(eachexternallink)

                print(eachexternallink)

        print("************internal*******************************")

        for eachinternallink in allinternallinks:

            if eachinternallink not in allINlinks:

                allINlinks.add(eachinternallink)

                print(eachinternallink)

                getAllexternalLinks(eachinternallink)

if __name__ == "__main__":

    getAllexternalLinks("http://www.oreilly.com/")

***************还存在问题的代码***************************

python 爬虫（四）的更多相关文章

Python爬虫(四)——开封市58同城数据模型训练与检测
前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建 ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
python爬虫(四)_urllib2库的基本使用
本篇我们将开始学习如何进行网页抓取,更多内容请参考:python学习指南 urllib2库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.在Python中有很 ...
Python 爬虫四基础案例-自动登陆github
GET&POST请求一般格式爬取Github数据 GET&POST请求一般格式很久之前在讲web框架的时候,曾经提到过一句话,在网络编程中“万物皆socket”.任何的网络通信归根 ...
Python 爬虫 (四)
requests: 练手雪qiu网 import requests import json import re import pymysql url = 'https://xueqiu.com/v4 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇内容通过跟我做一个好玩的 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...

随机推荐

c语言第一章第一节认识变量
声明:本人大一新生,闲着无聊..写写c语言教程..菜鸟一枚..大神勿喷!!! 接下来我们都用dev来进行编译..vc++太古老了,没提示功能,不好上手,并且老是出毛病..vs太大了,编个c不至于,运行 ...
Google地图路线规划
Google地图路线规划: 需求:给定的两点之间Google地图路径规划和详情. 代码实现: //map定义省略 var directionsDisplay = new google.maps.Dir ...
5 Hbase
# 大纲: * 认识 HBase * HBase 架构 * HBase读写流程定义: * HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用Hbase 技术可在廉价PC S ...
Ubuntu Server 14.04 --secure-file-priv error in MySql 解决方案
在VPS部署Ubuntu 14.04服务器时,MySQL执行导出文件命令,报错: The MySQL server is running with the --secure-file-priv opt ...
在CentOS下搭建自己的Git服务器
首先需要装好CentOS系统,作为测试,你可以选择装在虚拟机上,这样比较方便.这步默认你会,就不讲了.有了CentOS,那么如何搭建Git服务器呢?1.首先需要安装Git,可以使用yum源在线安装: ...
360随身wifi在win10中连不上网络
找到服务"Wired AutoConfig"和"WLAN AutoConfig"项,点击"启动"按钮,确保使其正常启动. 讲本地网卡共享到移 ...
Java基础高级二（多线程）
1.进程和线程的区别:线程是轻量级的,本省不会持太多资源,需要的时候向进程申请 2.线程的状态:创建,可执行,执行中,等待,休眠,阻塞 3.线程状态之间的转换 4.线程API:Thread类,Runn ...
Python之Web框架Django
Python之Web框架: Django 一. Django Django是一个卓越的新一代Web框架 Django的处理流程 1. 下载地址 Python 下载地址:https://www.pyt ...
Mybatis 拦截器
Mybatis定义了四种拦截器: Executor (update, query, flushStatements, commit, rollback, getTransaction, close, ...
iOS开发UI篇—CAlayer（自定义layer）
iOS开发UI篇—CAlayer(自定义layer) 一.第一种方式 1.简单说明以前想要在view中画东西,需要自定义view,创建一个类与之关联,让这个类继承自UIView,然后重写它的Draw ...

python 爬虫（四）

python 爬虫（四）的更多相关文章

随机推荐

热门专题