Python学习之静态页面数据抓取

1 页面信息抓取

　　定义getPage函数，根据传入的页码get到整个页面的html内容

　　getContent函数，通过正则匹配把页面中的表格部分的html内容取出

　　最后定义getData函数，同样是通过正则匹配把getContent函数得到的具体表格内容取出，存储在dat[]数组中

 class PC:

 #初始化

     def __init__(self,baseUrl):

         self.baseURL = baseUrl

         self.tool = Tool()

     def getPage(self,pageNum):

         try:

             url = self.baseURL + str(pageNum)

             request = urllib2.Request(url)

             response = urllib2.urlopen(request)

             #print response.read()

             return response.read().decode('utf-8')

         except urllib2.URLError,e:

             if hasattr(e,"reason"):

                 print e.reason

                 return None

     def getContent(self,pageNum):

         page = self.getPage(pageNum)

         pattern = re.compile('<tr class="table-link.*?>(.*?)</tr>',re.S)

         result = re.findall(pattern,page)

         if result:

             #x = self.tool.replace(result[0])

             #print x.strip()

             return result

         else:

             return None

     def getData(self,result):

         reLen = len(result)

         pattern = re.compile('<td class="">(.*?)</td>',re.S)

         k = 0

         for i in range(0,reLen):

             d = re.findall(pattern,result[i])

             dat[k]={"Filing_Name":d[0],"Filing_Date":d[1],"District_Court":d[2],"Exchange":d[3],"Ticker":d[4]}

             k += 1

         num = k

         return dat

2 将结果存储在scv文件

 csvfile = file('aa.csv','wb')

 writer = csv.writer(csvfile)

 for i in range(1,214):

     print i

     res = pc.getContent(i)

     da = pc.getData(res)

     if (len(da)!=0):

         for k in range(0,len(da)):

             writer.writerow([(dat[k]["Filing_Name"]).strip(),(dat[k]["Filing_Date"]).strip(),(dat[k]["District_Court"]).strip(),(dat[k]['Exchange']).strip(),(dat[k]['Ticker']).strip()])

主要内容

1 获取页面内容

Python提供了强大的urllib2函数库获取网页内容，具体步骤如下

构建request请求，传入请求的url
通过urlopen(url, data, timeout)函数得到一个response对象，即返回的页面信息就存储在该对象中
通过read（）方法读出页面信息

2 正则匹配

该页面抓取主要利用 re.compile(pattern[, flags])函数获得一个匹配模式，即一个正则表达式对象
flags定义包括：
re.I：忽略大小写
re.L：表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M：多行模式
re.S：' . '并且包括换行符在内的任意字符（注意：' . '不包括换行符）
re.U：表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

然后通过 findall函数获得所有满足匹配模式的字符串

3 存入文件

定义file对象，即打开一个文件
定义一个writer进行写文件操作
通过writer的writerrow函数逐行写入文件
关闭文件

Python学习之静态页面数据抓取的更多相关文章

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlpar ...
Python笔记（十一）——数据抓取例子
上班时候想看股票行情怎么办?试试这个小例子,5分钟拉去一次股票价格,预警: #coding=utf-8 import re import urllib2 import time import thre ...
python学习(26)分析ajax请求抓取今日头条cosplay小姐姐图片
分析ajax请求格式,模拟发送http请求,从而获取网页代码,进而分析取出需要的数据和图片.这里分析ajax请求,获取cosplay美女图片. 登陆今日头条,点击搜索,输入cosplay 下面查看浏览 ...
delphi 用idhttp做web页面数据抓取注意事项
这里不讨论webbrowse方式了 .直接采用indy的 idhttp Get post 可以很方便的获取网页数据. 但如果要抓取大量数据程序稳定运行不崩溃就不那么容易了.这几年也做了不少类似工具 ...
Python开发笔记：网络数据抓取
网络数据获取(爬取)分为两部分: 1.抓取(抓取网页) · urlib内建模块,特别是urlib.request · Requests第三方库(中小型网络爬虫的开发) · Scrapy框架(大型网络爬 ...
Python爬虫之-动态网页数据抓取
什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
python 入门实践之网页数据抓取
这个不错.正好入门学习使用. 1.其中用到 feedparser: 技巧:使用 Universal Feed Parser 驾驭 RSS http://www.ibm.com/developerwor ...
Python 之有道翻译数据抓取
import requests import time def you_dao(): key = input("请输入要翻译的内容:") # key = "哈哈" ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...

随机推荐

win10 10586 关机便利贴报内存不能为 read 应用程序错误
解决方案: 最小化便利贴后关机.
python学习笔记（sqlalchemy安装失败）
博主今天折腾了一天sqlalchemy安装问题下面是失败的截图直接重新安装python2.7仍未解决此问题最终在一国外论坛中找到解决的方法: 安装VC++对python的支持文件 VCForPy ...
"开发路上踩过的坑要一个个填起来————持续更新······（7月30日）"
欢迎转载,请注明出处! https://gii16.github.io/learnmore/2016/07/29/problem.html 踩过的坑及解决方案记录在此篇博文中! 个人理解,如有偏颇,欢 ...
C#程序用Inno Setup打包，以管理员身份运行的处理方法
一.C#项目端的处理目标:快捷方式有带盾的标识在源码的Properties目录中找到 app.manifest,将其中level="asInvoker" 改成 level=&q ...
Flex4/AS3.0自定义VideoPlayer组件皮肤,实现Flash视频播放器
要求必备知识本文要求基本了解 Adobe Flex编程知识. 开发环境 Flash Builder4/Flash Player11 演示地址演示地址资料下载 Adobe Flash Pla ...
区间k大数查询
问题描述给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个. 输入格式第一行包含一个数n,表示序列长度. 第二行包含n个正整数,表示给定的序列. 第三个包含一个正整数m,表示询问个数 ...
写给自己的Java程序员学习路线图
恩,做开发的工作已经三年多了,说起来实在是惭愧,自己的知识树还像一棵小草一样,工作中使用到了许多的知识和技术,不过系统性不够.根基不牢.并且不够深入!当然,慢慢的我也更加的清楚,我需要学习一些什么样的 ...
SSH Secure Shell Client的傻瓜式使用方法
说明:本记录仅是使用此软件的一种简单的操作方式,如果想深入研究,请做如下三件事: 1)到其官网了解她的前世今生 2)下载她.安装她.操作她(这一步需要不断的尝试.不断的深入.不断的探索,当然最好理论结 ...
.NET的三种缓存(页面缓存，控件缓存，自定义缓存)
BLL.Area bll = new BLL.Area(); protected void Page_Load(object sender, EventArgs e) { if (Cache[&quo ...
c# 字符串（含有汉字）转化为16进制编码(转)
public static string Str2Hex(string s) { string result = string.Empty; byte[] arrByte = System.Text. ...

Python学习之静态页面数据抓取

Python学习之静态页面数据抓取的更多相关文章

随机推荐

热门专题