使用HTMLParser爬取标签内容

以此网站为例

 import urllib.request

 from html.parser import HTMLParser

 from  html.entities import name2codepoint

 #相当于CURL

 def Hocontent(url):

     page = urllib.request.urlopen(url)

     html = page.read()

     return html

 class MyHTMLParser(HTMLParser): #继承HTMLParser类

     def __init__(self):

         HTMLParser.__init__(self)

         self.data = []

     #获取标签中的content

     def handle_data(self, data):

         if len(data) >40 and  data.find('itwriter')==-1 :

             str = data.strip()

             self.data.append(str)

 #获取内容

 hh = Hocontent('https://news.cnblogs.com/')

 h = hh.decode(encoding="utf-8")

 #创建一个子类实例

 objectP = MyHTMLParser()

 #解析

 objectP.feed(h)

 for con in objectP.data:

     print(con)

     print('==============')

使用HTMLParser爬取标签内容的更多相关文章

[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
查询数据，从链接地址中爬取文章内容jsoup
查询数据,从链接地址中爬取文章内容 protected void doGet(HttpServletRequest request, HttpServletResponse response) thr ...
利用Jsoup包爬取网站内容
一 Jsoup包下载链接:http://download.csdn.net/detail/u014000832/7994245 二爬取搜狐新闻网站标题等内容 package com.test1; ...
python笔记28-lxml.etree爬取html内容
前言本篇继续lxml.etree学习,在线访问接口,通过接口返回的html,解析出想要的text文本内容环境准备: python 3.6 lxml requets 定位目标爬取我的博客首页htt ...
python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）
相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...
【scrapy】关于爬取的内容是Unicode编码
自己练习爬取拉钩网信息的时候爬取的信息如下: {'jobClass': [u'\u9500\u552e\u52a9\u7406'], 'jobUrl': u'https://www.lagou.com ...
python爬取糗百内容
#-*- coding: utf-8 -*- import urllib import urllib2 import re #页面为1 page=1 url='http://www.qiushibai ...
python爬取页面内容
from selenium import webdriverimport xlwt driver = webdriver.Chrome(r'D:\chromedriver.exe')driver.ma ...
网络爬虫2：使用crawler4j爬取网络内容
https://github.com/yasserg/crawler4j 需要两个包: crawler4j-4.1-jar-with-dependencies.jar slf4j-simple-1.7 ...

随机推荐

Win10下 VS2017 安装失败未能安装包“Microsoft.VisualStudio.AspNet45.Feature,version=15.0.26208.0”
事情的起因是这样的,前段时间,VS2017发布当天,想在自己的Win10上安装VS2017,然而,由于自己的系统很久没有更新(PS:自己关闭了Windows更新). 安装提示:未能安装包“Micros ...
eclipse扩容
-vmD:/jdk-6u17-windows-i586/jdk1.6.0_17/bin/javaw.exe-startupplugins/org.eclipse.equinox.launcher_1. ...
centos7 安装kubernetes1.4
192.168.251.9 master192.168.251.231 node 建议可以搭建etcd集群来做数据库存储,并搭建kube-dns,然后把k8s的日志落地到/var/log/kubern ...
iOS 文本转语音(TTS)详解：Swift
上一篇博客讲解了iOS的speech FrameWork语音识别的功能:http://www.cnblogs.com/qian-gu-ling/p/6599670.html,对应的这篇博客就写一下文本 ...
try{} catch(…){} 讨论（转）
以前都是用try{} catch(…){}来捕获C++中一些意想不到的异常, 今天看了Winhack的帖子才知道,这种方法在VC中其实是靠不住的.例如下面的代码: .try .{ .BYTE* pch ...
疯狂的 JAVA 后++
一.x++ 所以执行完x++之后,局部变量区的x值,直接为2: iinc: 指定int型变量增加指定的值,注意是变量,我的解释是iinc直接对局部变量操作,而不是对操作栈进行操作! ★★★★ OUTP ...
redis实现队列消息的ack
由于公司提供的队列实在太过于蛋疼而且还限制不能使用其他队列,但为了保证数据安全性需要一个可以有ack功能的队列. 原生的redis中通过L/R PUSH/POP方式来实现队列的功能,这个当然是没办法满 ...
手机自动化测试：appium源码分析之bootstrap九
手机自动化测试:appium源码分析之bootstrap九 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣, ...
hdu 2516 取石子游戏（斐波那契博弈）
题意:1堆石子有n个,两人轮流取.先取者第1次可以取任意多个,但不能全部取完.以后每次取的石子数不能超过上次取子数的2倍. 取完者胜,先取者负输出"Second win",先取者胜 ...
user-modify属性，让html标签可以编辑
其实这只是一个很小的需求,但是写着写着发现干货越来越多,所以特意给大家分享一下. 项目需要做一个类似QQ聊天输入的效果有的同学说,这不是很简单吗?一开始我也这么感觉 :) 观察需求 1.整体固定在底 ...

使用HTMLParser爬取标签内容

使用HTMLParser爬取标签内容的更多相关文章

随机推荐

热门专题