python网页抓取练手代码
from urllib import request
import html.parser class zhuaqu(html.parser.HTMLParser):
blogHtml = ""
data = []
flag = 0 def getHtml(self):
res = request.urlopen("http://www.cnblogs.com")
self.blogHtml = res.read().decode('utf-8') def handle_starttag(self, tag, attrs):
if(tag == "a"):
for attr in attrs:
if(attr[0] == "class" and attr[1] == "titlelnk"):
self.flag = 1
break
else:
pass
def handle_data(self, data):
if(self.flag == 1):
self.data.append(data.strip())
self.flag = 0
else:
pass def show(self):
print(self.blogHtml) zhua = zhuaqu()
zhua.getHtml()
zhua.feed(zhua.blogHtml)
for item in zhua.data:
print(item)
运行结果
C:\Python33\python.exe C:/pythonHtmlParse/zhuaqu.py
团建活动之忆童年
闭包的总结(干货1)
Jetty源码学习-编译Jetty源码二三事
Cesium原理篇:Property
前端制作动画的几种方式(css3,js)
SQL Server-聚焦INNER JOIN AND IN性能分析(十四)
C# 中的委托和事件
Android中Activity运行时屏幕方向与显示方式详解
利用T4模板生成ASP.NET Core控制器的构造函数和参数
JavaScript的因为所以
css居中小结
SharedPreferences 的另一种场景的用法
python wordcloud 对电影《我不是潘金莲》制作词云
怎么调试lua性能
ElasticSearch 5学习——安装Elasticsearch、Kibana和X-Pack
SDWebImage源码解读_之SDWebImageDecoder
struts开发经验汇总
scikit-learn 梯度提升树(GBDT)调参小结
你该知道的-SQL里的这些新语法-函数
希望大牛加入,共同为项目智能化管理jar包而努力
Process finished with exit code 0
python网页抓取练手代码的更多相关文章
- python实现列表页数据的批量抓取练手练手的
		python实现列表页数据的批量抓取,练手的,下回带分页的 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import B ... 
- 一个极其简洁的Python网页抓取程序,自己主动从雅虎財经抓取股票数据
		本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期.股票名称.实时报价.当日变化率. ... 
- python 网页抓取并保存图片
		#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ... 
- python分布式抓取网页
		呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ... 
- Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取
		区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ... 
- Python爬虫之三种网页抓取方法性能比较
		下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式 如果你对正则表达式还不熟悉,或是需要一些提 ... 
- Python实现简单的网页抓取
		现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程 第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ... 
- Python网络爬虫笔记(一):网页抓取方式和LXML示例
		(一) 三种网页抓取方法 1. 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2. Beautiful Soup 模块使用Python编写,速度慢. ... 
- python 处理抓取网页乱码
		python 处理抓取网页乱码问题一招鲜 相信用python的人一定在抓取网页时,被编码问题弄晕过一阵 前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ... 
随机推荐
- startUML破解方式
			StarUML官方下载地址:http://staruml.io/download StarUML是一个非常好用的画UML图的工具,但是它是收费软件,以下是破解方法: 1.使用Editplus或者N ... 
- Linux下Keepalived+LVS-DR模式配置高可用负载均衡集群
			一.环境说明: 操作系统:Centos-6.5_x86_64 keepalived软件安装在node2和node3机器上. 实际安装之前,先关闭keepalived节点(node ... 
- make: *** [out/host/linux-x86/obj/EXECUTABLES/aidl_intermediates/aidl] 错误 1,make: *** [out/host/linux-x86/obj/lib/libESR_Portable.so] 错误 1
			错误3: g++: g++: selected multilib '32' not installed selected multilib '32' not installed make: *** [ ... 
- 分布式消息总线,基于.NET Socket Tcp的发布-订阅框架之离线支持,附代码下载
			一.分布式消息总线以及基于Socket的实现 在前面的分享一个分布式消息总线,基于.NET Socket Tcp的发布-订阅框架,附代码下载一文之中给大家分享和介绍了一个极其简单也非常容易上的基于.N ... 
- 没有了SA密码,无法Windows集成身份登录,DBA怎么办?
			一同事反馈SQL无法正常登录了,以前都是通过windows集成身份验证登录进去的(sa密码早忘记了),今天就改了服务器的机器名,现在无论如何都登录不进去. SQL登录时如果采用windows集成身份验 ... 
- MIT 6.828 JOS学习笔记15. Lab 2.1
			Lab 2: Memory Management lab2中多出来的几个文件: inc/memlayout.h kern/pmap.c kern/pmap.h kern/kclock.h kern/k ... 
- android中如何用代码来关闭打开的相机
			场景描述: 比如你再应用中打开了系统相机,然后需要在几分钟后自动关闭这个系统相机(不是手动关闭) 1.在activityA中利用startActivityForResult(intent,reques ... 
- webrtc中APM(AudioProcessing module)的使用
			一,实例化和配置 AudioProcessing* apm = AudioProcessing::Create(0); //这里的0指的是channelID,只是一个标注那个通道的表示 apm-> ... 
- 【iOS 单例设计模式】底层解析与运用
			[iOS 单例设计模式]底层解析与运用 一.单例设计名词解释: (官方解释)单例模式确保一个类只有一个实例,自行提供这个实例并向整个系统提供这个实例.(形象比喻)程序 — 公司 单例实例 - 管理 ... 
- redmine整合GIT版本库
			redmine整合GIT版本库 服务器的环境: Ubuntu 11.10 64位 Redmine 1.4.5.stable.10943 git version 1.7.5.4 + gitolite ... 
