spider-抓取页面内容

# -*- coding: UTF-8 -*-

from HTMLParser import HTMLParser

import sys,urllib2,string,re,json

reload(sys)

sys.setdefaultencoding('utf-8')

class hp(HTMLParser):

    def __init__(self):

        self.readingdata_a = False

        self.title = []

        self.usite = []

        HTMLParser.__init__(self)

    def handle_starttag(self,tag,attrs):

        #print tag

        if tag == 'a':for h,v in attrs:

                if v == 'entrylistItemTitle':

                    self.readingdata_a = True

                    self.usite.append(attrs[2][1])

    def handle_data(self,data):

        if self.readingdata_a:

            self.title.append(data)

    def handle_endtag(self,tag):

        if tag == 'a':

            self.readingdata_a = False

    def getdata(self):

        #return zip(self.title,self.usite) 通过zip函数将其一对一合并为tuple

        i=0

        listr = []

        while i<len(self.title):

            listr.append(self.title[i] +' : '+self.usite[i])

            i=i+1

        return listr

url='http://www.cnblogs.com/dreamer-fish/archive/2016/03.html'

request = urllib2.Request(url)

response = urllib2.urlopen(request).read()

yk=hp()

yk.feed(response)

dd = yk.getdata()

for i in dd:

    print i

yk.close

结果：

spider-抓取页面内容的更多相关文章

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
nodejs抓取页面内容，并分析有无某些内容的js文件
nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作! 举个例子,比如要在页面中找有没有www.ba ...
PHP cURL库函数抓取页面内容
目录 1 为什么要用cURL? 2 启用cURL 3 基本结构 4 检查错误 5 获取信息 6 基于浏览器的重定向 7 用POST方法发送数据 8 文件上传 9 cURL批处理(multi cURL) ...
C#使用CSS选择器抓取页面内容
最近在查wpf绘图资料时,偶然看到Python使用CSS选择器抓取网页的功能.觉得很强,这里用C#也实现一下. 先介绍一下CSS选择器在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素. ...
基于puppeteer模拟登录抓取页面
关于热图在网站分析行业中,网站热图能够很好的反应用户在网站的操作行为,具体分析用户的喜好,对网站进行针对性的优化,一个热图的例子(来源于ptengine) 上图中能很清晰的看到用户关注点在那,我们不 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.
使用PHP的正则抓取页面中的网址
最近有一个任务,从页面中抓取页面中所有的链接,当然使用PHP正则表达式是最方便的办法.要写出正则表达式,就要先总结出模式,那么页面中的链接会有几种形式呢? 链接也就是超级链接,是从一个元素(文字. ...
php抓取页面的几种方式
在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接 ...

随机推荐

LDA Gibbs Smapling理解
即排除当前词的主题分配,根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式里面用到了伽马函数的性质当Gibbs sampling 收敛后,我们需要根据最后文档集中所有单词的主题分配来计算 ...
Python List 基础学习
list&tuple&dict list list 常见操作初始化: list1 = [123, 'abc', 4.56, ['inner', 'list'], 7-9j] list ...
[PY3]——对iterator的处理（解析式、map、reduce、filter）
引言对iterator一般可以用for in方法处理,但有时可以借助更高效.也更易读的方式去处理. 例如解析式(包括列表解析式.生成器解析式.集合解析式.字典解析式), 例如map( ).reduc ...
(技术分享) 解决 Firefox 显示“已阻止载入混合活动内容”的问题
(摘自http://blog.aizhet.com/Windows/18415.html) 从 Firefox 18 开始,如果 HTTPS 页面中包含非加密的 HTTP 内容,浏览器会在控制台输出警 ...
Java : 传值or传引用?
那看看这句经典名言:O'Reilly's Java in a Nutshell by David Flanagan (see Resources) puts it best: "Java m ...
[转] 如何选择正确的Hadoop版本
Gartner:如何选择正确的Hadoop版本这份报告的全名是<How to Choose the Right Apache Hadoop Distribution>.主要介绍了企业如何 ...
c#基础学习(0806)之StringBuilder的使用
以前字符串的拼接基本都是用string来完成的,从来没有考虑过性能或者速度的问题,自从学习了StringBuilder之后才发现两者的差距有多大,当然,数据量比较小的时候,用string还是挺方便的, ...
阿里云1核1GIIS都装不上
没有启用虚拟内存启用之后就可以安装了注意还要把自动更新服务关掉
MongoDB2.x升级到3.x解决方案
MongoDB2.x版本Maven配置  <dependency> <groupId>org.springframework.dat ...
第二节：Java开发环境的搭建
一.认识并安装JDK 1.JDK(Java Development Kit)是Java开发工具集,包括Java运行环境(JRE).Java开发工具以及一些基础类库,进行Java开发所必须安装的软件. ...

spider-抓取页面内容

spider-抓取页面内容的更多相关文章

随机推荐

热门专题