python模块之HTMLParser抓页面上的所有URL链接
# -*- coding: utf-8 -*-
#python 27
#xiaodeng
#python模块之HTMLParser抓页面上的所有URL链接 import urllib
#MyParser类写法一
'''
from HTMLParser import HTMLParser
class MyParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self) def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href' and value.startswith('http'):
print value ''' #MyParser类写法二
import HTMLParser
class MyParser(HTMLParser.HTMLParser): def handle_starttag(self, tag, attrs):
#这里重新定义了处理开始标签的函数
if tag == 'a':#判断标签<a>的属性
for name,value in attrs:
if name == 'href' and value.startswith('http'):#以什么字符串开头
print value if __name__ == '__main__':
url='http://www.cnblogs.com/'
content=urllib.urlopen(url).read()
my=MyParser()
my.feed(content)
my.close() '''
http://www.cnblogs.com/Jaryleely/p/careertwo.html
http://www.cnblogs.com/Jaryleely/
http://www.cnblogs.com/Jaryleely/
http://www.cnblogs.com/Jaryleely/p/careertwo.html#commentform
http://www.cnblogs.com/Jaryleely/p/careertwo.html
http://www.cnblogs.com/AndroidJotting/p/4983688.html
http://www.cnblogs.com/AndroidJotting/
http://www.cnblogs.com/AndroidJotting/
http://www.cnblogs.com/AndroidJotting/p/4983688.html#commentform
http://www.cnblogs.com/AndroidJotting/p/4983688.html
http://www.cnblogs.com/fuly550871915/p/4983682.html
http://www.cnblogs.com/fuly550871915/
http://www.cnblogs.com/fuly550871915/
http://www.cnblogs.com/fuly550871915/p/4983682.html#commentform
http://www.cnblogs.com/fuly550871915/p/4983682.html
http://www.cnblogs.com/Ray-liang/p/4983592.html
http://www.cnblogs.com/Ray-liang/
http://www.cnblogs.com/Ray-liang/
http://www.cnblogs.com/Ray-liang/p/4983592.html#commentform
http://www.cnblogs.com/Ray-liang/p/4983592.html
.......
'''
python模块之HTMLParser抓页面上的所有URL链接的更多相关文章
- python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用) import HTMLPar ...
- python模块介绍- HTMLParser 简单的HTML和XHTML解析器
python模块介绍- HTMLParser 简单的HTML和XHTML解析器 2013-09-11 磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq ...
- python模块之HTMLParser之穆雪峰的案例(理解其用法原理)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser之穆雪峰的案例(理解其用法原理) #http://www.cnblog ...
- python模块之HTMLParser解析出URL链接
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser解析出URL链接 #http://www.cnblogs.com/mf ...
- python模块之HTMLParser
HTMLParser是python用来解析html的模块.它可以分析出html里面的标签.数据等等,是一种处理html的简便途径. HTMLParser采用的是一种事件驱动的模式,当HTMLParse ...
- history.pushState 实现浏览器页面不刷新修改url链接
最近遇到了在不刷新页面的情况下修改浏览器url链接的需求,遂求助于万能的度娘,最终通过history.pushState()完美解决问题.现在将我理解的一些内容分享一下,不对的地方欢迎大家指出. 在使 ...
- python模块学习---HTMLParser(解析HTML文档元素)
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...
- python模块之HTMLParser简介
html.parser是一个非常简单和实用的库,它的核心是HTMLParser类. 工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应 ...
- python爬虫初级--获取指定页面上的菜单名称以及链接,然后导出
''' Created on 2017年4月5日 @author: Admin ''' import requests from bs4 import BeautifulSoup as bsp # 网 ...
随机推荐
- java HttpServletRequest和HttpServletResponse詳解
這篇文章主要介紹瞭java HttpServletRequest和HttpServletResponse詳解的相關資料,需要的朋友可以參考下 java HttpServletRequest和HttpS ...
- Visual Studio Code 配置 gcc
作者:谭九鼎链接:https://www.zhihu.com/question/30315894/answer/154979413来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注 ...
- [转]Haproxy 1.5.0 正式发布,Web 负载均衡
From : http://www.oschina.net/news/53070/haproxy-1-5-0 经过 4 年的不懈努力,HAProxy 1.5.0 终于发布了! 相对于 1.4 版本来说 ...
- C#取硬盘、CPU、主板、网卡的序号 ManagementObjectSearcher (WMI)
实现方法参考 http://www.cnblogs.com/chengulv/archive/2012/12/29/2839303.html 下面介绍查看属性的方法: (1)在运行里输入 “WBEMT ...
- matlib实现梯度下降法
样本文件下载:ex2Data.zip ex2x.dat文件中是一些2-8岁孩子的年龄. ex2y.dat文件中是这些孩子相对应的体重. 我们尝试用批量梯度下降法,随机梯度下降法和小批量梯度下降法来对这 ...
- 第十章 dubbo线程模型
一 netty的线程模型 在netty中存在两种线程:boss线程和worker线程. 1 boss线程 作用: accept客户端的连接: 将接收到的连接注册到一个worker线程上 个数: 通常情 ...
- oracle归档日志的操作
oracle利用重做日志文件记录对数据库的操作.可是重做日志文件组是循环使用的,当所有的日志文件都被填满时,系统自己主动切换到第一组日志文件,当然数据库管理员也能够使用命令手 ...
- git pull fails “unable to resolve reference” “unable to update local ref”
问题 由于有人rebase了分支,或者不知道怎么搞的.其他人拉取代码的时候,发现拉不下来. >git fetch error: cannot lock ref 'refs/remotes/ori ...
- neo4j的配置文件(图文详解)
不多说,直接上干货! 前期博客 Ubuntu16.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) Ubuntu14.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) ...
- 数据科学家Docker历险记(1):windows下环境搭建
原文:http://www.xueqing.tv/cms/article/247 Docker是最近炒得很火热的一门技术,在网上可以找到关于它的介绍文章,比如<Docker到底是什么?为什么它这 ...