python网页抓取练手代码

from urllib import request

import html.parser

class zhuaqu(html.parser.HTMLParser):

    blogHtml = ""

    data = []

    flag = 0

    def getHtml(self):

        res = request.urlopen("http://www.cnblogs.com")

        self.blogHtml = res.read().decode('utf-8')

    def handle_starttag(self, tag, attrs):

        if(tag == "a"):

            for attr in attrs:

                if(attr[0] == "class" and attr[1] == "titlelnk"):

                    self.flag = 1

                    break

        else:

            pass

    def handle_data(self, data):

        if(self.flag == 1):

            self.data.append(data.strip())

            self.flag = 0

        else:

            pass

    def show(self):

        print(self.blogHtml)

zhua = zhuaqu()

zhua.getHtml()

zhua.feed(zhua.blogHtml)

for item in zhua.data:

    print(item)

运行结果

C:\Python33\python.exe C:/pythonHtmlParse/zhuaqu.py
团建活动之忆童年
闭包的总结(干货1)
Jetty源码学习-编译Jetty源码二三事
Cesium原理篇：Property
前端制作动画的几种方式（css3，js）
SQL Server-聚焦INNER JOIN AND IN性能分析（十四）
C# 中的委托和事件
Android中Activity运行时屏幕方向与显示方式详解
利用T4模板生成ASP.NET Core控制器的构造函数和参数
JavaScript的因为所以
css居中小结
SharedPreferences 的另一种场景的用法
python wordcloud 对电影《我不是潘金莲》制作词云
怎么调试lua性能
ElasticSearch 5学习——安装Elasticsearch、Kibana和X-Pack
SDWebImage源码解读_之SDWebImageDecoder
struts开发经验汇总
scikit-learn 梯度提升树(GBDT)调参小结
你该知道的-SQL里的这些新语法-函数
希望大牛加入，共同为项目智能化管理jar包而努力

Process finished with exit code 0

python网页抓取练手代码的更多相关文章

python实现列表页数据的批量抓取练手练手的
python实现列表页数据的批量抓取,练手的,下回带分页的 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import B ...
一个极其简洁的Python网页抓取程序，自己主动从雅虎財经抓取股票数据
本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期.股票名称.实时报价.当日变化率. ...
python 网页抓取并保存图片
#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ...
python分布式抓取网页
呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Python网络爬虫笔记（一）：网页抓取方式和LXML示例
(一) 三种网页抓取方法 1. 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2. Beautiful Soup 模块使用Python编写,速度慢. ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...

随机推荐

phpcms v9 中的数据库操作函数
1.查询 $this->select($where = '', $data = '*', $limit = '', $order = '', $group = '', $key='') 返回 ...
Visual Studio前端开发工具/扩展
怎么样让Visual Studio更好地编写HTML5, CSS3, JavaScript, jQuery,换句话说就是如何更好地做前端开发.Visual Studio 2010不管是旗舰版还是免费版 ...
【leetcode】Container With Most Water
题目描述: Given n non-negative integers a1, a2, ..., an, where each represents a point at coordinate (i, ...
安装storm的一些很乱的笔记
下面是自己安装和测试storm的一些笔记,比较乱,后续有时间在整理一篇. storm jar all-my-code.jar com.storm.MyTopology arg1 arg2这个命令会运行 ...
swift 命令
http://blog.chinaunix.net/uid-15063109-id-5144658.html http://www.cnblogs.com/fczjuever/p/3224022.ht ...
python 学习第二十一天，django知识(三)
一,django的url路由系统总结 1,url(/index/,函数或者类) 2,url(/index/(\d+), 函数或者类) 3,url(/index/(?P<nid>\d+),函 ...
Git - 问题集
1.If no other git process is currently running, this probably means a git process crashed in this re ...
解决vsftpd的refusing to run with writable root inside chroot错误
参考 http://www.cnblogs.com/CSGrandeur/p/3754126.html 在Ubuntu下用 vsftpd 配置FTP服务器,配置 “ sudo chmod a-w /h ...
【虚拟机】在VMware中安装Server2008之后配置网络连接的几种方式
VMware虚拟机的网络连接方式分为三种:桥接模式.NAT模式.仅主机(Host Only) (1)桥接模式桥接模式即在虚拟机中虚拟一块网卡,这样主机和虚拟机在一个网段中就被看作是两个独立的IP地址 ...
【SAP BO】处理掉BOE打开Xcelsius报表时，外围出现的外边框(转)
原帖地址:http://blog.csdn.net/liyi199488/article/details/8943286 通过BOE打开Xcelsius报表时,总是出现一个外边框. 处理办法: Xce ...

python网页抓取练手代码

python网页抓取练手代码的更多相关文章

随机推荐

热门专题