提取网址的python练习

import urllib, urllib2, cookielib

from HTMLParser import HTMLParser

import sys

reload(sys)

sys.setdefaultencoding('utf8')

class WebParser(HTMLParser):

    def __init__(self, links, path):

        HTMLParser.__init__(self)

        self.links = links

        self.path = path

    def handle_starttag(self, tag, attrs):

        if tag == 'a':

            if len(attrs) == 0:

                pass

            else:

                for (key, val) in attrs:

                    if key == 'href':

                        if val.startswith('http'):

                            self.links.add(val)

                        elif val.startswith('/'):

                            self.links.add(self.path + val)

class Crawl:

    def __init__(self):

        self.path = 'http://www.baidu.com'

        self.cookie = cookielib.CookieJar()

        handler = urllib2.HTTPCookieProcessor(self.cookie)

        self.opener = urllib2.build_opener(handler)

    def open(self, path):

        self.response = self.opener.open(path)

    def showCookie(self):

        for item in self.cookie:

            print 'Name = ' + item.name

            print 'value = ' + item.value

    def showResponse(self):

        print self.response.read()

    def getAllUrl(self, links, path):

        try:

            self.open(path)

            res = self.response.read()

            parser = WebParser(links, path)

            parser.feed(res)

            parser.close()

        except Exception, e:

            print e

    def crawl(self):

        src_links = set()

        result_links = set()

        self.getAllUrl(src_links, self.path)

        n = 200

        while len(src_links) != 0 and n > 0:

            link = src_links.pop()

            if link in result_links:

                pass

            result_links.add(link)

            self.getAllUrl(src_links, link)

            n -= 1

            print n

        return result_links | src_links

c = Crawl()

rlt = c.crawl()

for link in rlt:

    print link

提取网址的python练习的更多相关文章

（学习网址）Python 自动化测试
1.Python自动化测试地址 http://www.wtoutiao.com/author/python-selenium.html 2.unittest参考网址: 1)python自动化测试报告H ...
正则提取关键字符-python代码实现
原文地址:http://www.bugingcode.com/blog/python_re_extraction_key.html 关于python的正则使用在以前的文章中 http://www.bu ...
基于 RTF specification v1.7 的 RTF 文件解析及 OLE 对象提取（使用 Python 开发）
0x01 Office RTF 文件介绍 RTF 文件也称富文本格式(Rich Text Format, 一般简称为 RTF),意为多文本格式是由微软公司开发的跨平台文档格式.大多数的文字处理软件都能 ...
[Python]爬取首都之窗百姓信件网址id python 2020.2.13
经人提醒忘记发网址id的爬取过程了, http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?original ...
javascript在字符串中提取网址并替换成超链接
var str = " http://wasmip.baidu.com.cn/mip/km/archives/km_archives_main/kmArchivesMain.do?metho ...
Python使用xslt提取网页数据
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第一部分,实验 ...
asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
无论你用什么语言,正则表达式的处理方法都是非常灵活.高效的,尤其是对某些字符串的抓取.过滤方面,更显其优势. 正则表达式的写法通常比较简单,几行短代码便能轻松完成看似很复杂的事情,更值得称赞的是,它的 ...
Python基于共现提取《釜山行》人物关系
Python基于共现提取<釜山行>人物关系一.课程介绍 1. 内容简介 <釜山行>是一部丧尸灾难片,其人物少.关系简单,非常适合我们学习文本处理.这个项目将介绍共现在关系中的 ...
【Python】批量查询-提取站长之家IP批量查询的结果v1.0
0 前言写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 1 使 ...

随机推荐

组件：参数验证props:组件参数验证语法
<!DOCTYPE html> <html lang="zh"> <head> <title></title> < ...
oracle数据库忘记sys密码如何改密码
ORACLE服务器操作: 1.win+R打开dos窗口cmd 2.输入 sqlplus/nolog出现 3.输入 conn / as sysdba 出现 4. alter user sys ident ...
Junit5的依赖添加及RunWith(SpringJUnit4ClassRunner.class)注解使用
首先Junit5依赖应该配置为 <dependency> <groupId>org.junit.jupiter</groupId> <artifactId&g ...
抽象工厂模式（Abstract Factory）（抽象化）
不管是简单工厂模式还是工厂方法模式,在整个模式中只能有一个抽象产品,但在现实生活中,一个工厂只创建单个产品的例子很少,因为现在的工厂都是多元化发展. (1)产品等级结构:即产品的继承结构,如一个抽象类 ...
901. Online Stock Span [短于线性的时间统计单个元素的Span ]
Span 指这个元素之前连续的小于这个元素的值有多少个原理: 维护递减栈这个栈内的元素是递减的序列新到一个元素x 依次出栈比x小的(也就是这个元素的Span) 这种问题的关键在于新来的元素如果 ...
二、Web Service开发(.net)
.net平台内建了对Web Service的支持,包括Web Service的构建和使用.与其它开发平台不同,使用.net平台,你不需要其他的工具或者SDK就可以完成Web Service的开发了.. ...
mybatis学习：mybatis注解开发一对多
实体类User: public class User implements Serializable { private Integer id; private String username; pr ...
Leetcode559.Maximum Depth of N-ary TreeN叉树的最大深度
给定一个 N 叉树,找到其最大深度. 最大深度是指从根节点到最远叶子节点的最长路径上的节点总数. 说明: 树的深度不会超过 1000. 树的节点总不会超过 5000. class Solution { ...
判断是否微信浏览器，获取cookie，获取URL来源等
function isWeiXin() { var ua = window.navigator.userAgent.toLowerCase(); if (ua.match(/MicroMessenge ...
告别诊断烦恼 | 应用实时监控 ARMS 上线智能和实时诊断功能
为什么要做这个功能? 作为一款应用性能监控产品,我们通常会给用户展示两类数据: 第一种是统计数据:用户通过使用统计数据设置报警(比如应用响应时间大于2s),缩小问题范围(比如报警时间范围内,是哪一个接 ...

提取网址的python练习

提取网址的python练习的更多相关文章

随机推荐

热门专题