python模块之HTMLParser抓页面上的所有URL链接

# -*- coding: utf-8 -*-

#python 27

#xiaodeng

#python模块之HTMLParser抓页面上的所有URL链接

import urllib

#MyParser类写法一

'''

from HTMLParser import HTMLParser

class MyParser(HTMLParser):

    def __init__(self):

        HTMLParser.__init__(self)

    def handle_starttag(self, tag, attrs):

        if tag == 'a':

            for name,value in attrs:

                if name == 'href' and value.startswith('http'):

                    print value

'''

#MyParser类写法二

import HTMLParser

class MyParser(HTMLParser.HTMLParser):

    def handle_starttag(self, tag, attrs):
　　　　　#这里重新定义了处理开始标签的函数

        if tag == 'a':#判断标签<a>的属性

            for name,value in attrs:

                if name == 'href' and value.startswith('http'):#以什么字符串开头

                    print value

if __name__ == '__main__':

    url='http://www.cnblogs.com/'

    content=urllib.urlopen(url).read()

    my=MyParser()

    my.feed(content)

    my.close()

'''

http://www.cnblogs.com/Jaryleely/p/careertwo.html

http://www.cnblogs.com/Jaryleely/

http://www.cnblogs.com/Jaryleely/

http://www.cnblogs.com/Jaryleely/p/careertwo.html#commentform

http://www.cnblogs.com/Jaryleely/p/careertwo.html

http://www.cnblogs.com/AndroidJotting/p/4983688.html

http://www.cnblogs.com/AndroidJotting/

http://www.cnblogs.com/AndroidJotting/

http://www.cnblogs.com/AndroidJotting/p/4983688.html#commentform

http://www.cnblogs.com/AndroidJotting/p/4983688.html

http://www.cnblogs.com/fuly550871915/p/4983682.html

http://www.cnblogs.com/fuly550871915/

http://www.cnblogs.com/fuly550871915/

http://www.cnblogs.com/fuly550871915/p/4983682.html#commentform

http://www.cnblogs.com/fuly550871915/p/4983682.html

http://www.cnblogs.com/Ray-liang/p/4983592.html

http://www.cnblogs.com/Ray-liang/

http://www.cnblogs.com/Ray-liang/

http://www.cnblogs.com/Ray-liang/p/4983592.html#commentform

http://www.cnblogs.com/Ray-liang/p/4983592.html

.......

'''

python模块之HTMLParser抓页面上的所有URL链接的更多相关文章

python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用) import HTMLPar ...
python模块介绍- HTMLParser 简单的HTML和XHTML解析器
python模块介绍- HTMLParser 简单的HTML和XHTML解析器 2013-09-11 磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq ...
python模块之HTMLParser之穆雪峰的案例(理解其用法原理)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser之穆雪峰的案例(理解其用法原理) #http://www.cnblog ...
python模块之HTMLParser解析出URL链接
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser解析出URL链接 #http://www.cnblogs.com/mf ...
python模块之HTMLParser
HTMLParser是python用来解析html的模块.它可以分析出html里面的标签.数据等等,是一种处理html的简便途径. HTMLParser采用的是一种事件驱动的模式,当HTMLParse ...
history.pushState 实现浏览器页面不刷新修改url链接
最近遇到了在不刷新页面的情况下修改浏览器url链接的需求,遂求助于万能的度娘,最终通过history.pushState()完美解决问题.现在将我理解的一些内容分享一下,不对的地方欢迎大家指出. 在使 ...
python模块学习---HTMLParser(解析HTML文档元素)
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...
python模块之HTMLParser简介
html.parser是一个非常简单和实用的库,它的核心是HTMLParser类. 工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应 ...
python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出
''' Created on 2017年4月5日 @author: Admin ''' import requests from bs4 import BeautifulSoup as bsp # 网 ...

随机推荐

Promise is rejected: Error: 2 UNKNOWN: error starting container: API error (404): {"message":"network build-blockchain-insurance-app_default not found"}出错的解决方案
错误描述: docker logs web 现象: > blockchain-for-insurance@2.1.0 serve /app > cross-env NODE_ENV=pro ...
[转]Linux awk 命令说明
From : http://blog.csdn.net/tianlesoftware/article/details/6278273 一. AWK 说明 awk是一种编程语言,用于在linux/un ...
最近遇到了 timer1sec 定时调用的函数，出现了时间久了，就不是每秒一次了，可能会慢的情况。如何解决呢？
我想可以在timer1sec 调用四个线程,让四个线程来执行具体代码,而不是在timer1sec一个线程直接执行.这样,每个线程不超过4s,那么没秒都会被调用到. 需要使用到的技术是 semap ...
细说SQL Server中的加密【转】
简介加密是指通过使用密钥或密码对数据进行模糊处理的过程.在SQL Server中,加密并不能替代其他的安全设置,比如防止未被授权的人访问数据库或是数据库实例所在的Windows系统,甚至是数据库所在 ...
奇怪吸引子---ChenLee
奇怪吸引子是混沌学的重要组成理论,用于演化过程的终极状态,具有如下特征:终极性.稳定性.吸引性.吸引子是一个数学概念,描写运动的收敛类型.它是指这样的一个集合,当时间趋于无穷大时,在任何一个有界集上出 ...
一幅画<十六芒星盾>---程序员or艺术家
画上是一面含有16个尖角的铜盾,这是我用程序算法生成的图像中最震撼的一幅.图像生成出来后,我看了好久,一边看一边想我的人生转向问题:我是不是该离开苦逼又屌丝的程序界,混入高端大气上档次的艺术圈? 说要 ...
linux下使用ack进行代码搜索
1.安装 wget http://beyondgrep.com/ack-2.12-single-file sudo mv ack-2.12-single-file /usr/bin/ack sudo ...
《mysql技术内幕 InnoDB存储引擎（第二版）》阅读笔记
一.mysql架构 mysql是一个单进程多线程架构的数据库. 二.存储引擎 InnoDB: 支持事务行锁读操作无锁 4种隔离级别,默认为repeatable 自适应hash索引每张表的存储都是 ...
oracle归档日志的操作
oracle利用重做日志文件记录对数据库的操作.可是重做日志文件组是循环使用的,当所有的日志文件都被填满时,系统自己主动切换到第一组日志文件,当然数据库管理员也能够使用命令手 ...
Linux：磁盘挂载
本来虚拟centos的服务器的磁盘分配的就不大,之前只分配了20G的样子,由于最近有装了不少软件,比如nifi压缩版就有1.2G的大小,一下子没有磁盘资源了.今晚就折腾在这事上了. [root@mas ...

python模块之HTMLParser抓页面上的所有URL链接

python模块之HTMLParser抓页面上的所有URL链接的更多相关文章

随机推荐

热门专题