Python通用网络爬虫脚本

 from sys import argv

 from os import makedirs,unlink,sep,mkdir

 from os.path import dirname,exists,isdir,splitext

 from string import replace,find,lower

 from htmllib import HTMLParser

 from urllib import urlretrieve

 from urlparse import urlparse,urljoin

 from formatter import DumbWriter,AbstractFormatter

 from cStringIO import StringIO

 class Retriever(object):

     def __init__(self,url):

         self.url = url

         self.file = 'E:\install\Python27\\' + self.filename(url)

     def filename(self,url,deffile='index.htm'):

         parsedurl = urlparse(url,'http:',0)

         path = parsedurl[1] + parsedurl[2]

         ext = splitext(path) # seperate ext name

         if ext[1] == '':

             if path[-1] == '/':

                 path += deffile

             else:

                 path += '/' + deffile

         ldir = dirname(path)

         if sep != '/':

             ldir = replace(ldir,'/',sep)

         if not isdir(ldir):

             if exists(ldir): unlink(ldir)

             makedirs(ldir)

         return path

     def download(self):

         try:

             retval = urlretrieve(self.url,self.file)

         except IOError:

             retval = ('*** ERROR: invalid URL "%s"' %\

                 self.url)

         return retval

     def parseAndGetLinks(self):

         self.parser = HTMLParser(AbstractFormatter(DumbWriter(StringIO())))

         self.parser.feed(open(self.file).read())

         self.parser.close()

         return self.parser.anchorlist

 class Crawler(object):

     count = 0 # static downloaded page counter

     def __init__(self,url):

         self.q = [url]

         self.seen = []

         self.dom = urlparse(url)[1]

     def getPage(self,url):

         r = Retriever(url)

         retval = r.download()

         if retval[0] == '*':

             print retval,'...skipping parse'

             return

         Crawler.count += 1

         print '\n(',Crawler.count,')'

         print 'URL:',url

         print 'FILE:',retval[0]

         self.seen.append(url)

         links = r.parseAndGetLinks()

         for eachLink in links:

             if eachLink[:4] != 'http' and find(eachLink,'://') == -1:

                 eachLink = urljoin(url,eachLink)

             if find(lower(eachLink),'mailto:') != -1:

                 print '...discarded,mailto link'

                 continue

             if eachLink not in self.seen:

                 if find(eachLink,self.dom) == -1:

                     print '...discarded,not in domain'

                 else:

                     if eachLink not in self.q:

                         self.q.append(eachLink)

                         print '...new,added to Q'

                     else:

                         print '...discarded,already in Q'

             else:

                 print '...discarded,already processed'

     def go(self):#process links in queue

         while self.q:

             url = self.q.pop()

             self.getPage(url)

 def main():

     if len(argv) > 1:

         url = argv[1]

     else:

         try:

             url = raw_input('Enter starting URL:')

         except(KeyboardInerrupt,EOFError):

             url = ''

         if not url: return

         robot = Crawler(url)

         robot.go()

 if __name__ == '__main__':

     main()

Python通用网络爬虫脚本的更多相关文章

Python即时网络爬虫：API说明
API说明——下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...
python实战——网络爬虫
学习网络爬虫的目的: 1,可以私人定制一个搜索引擎,可以深层次的了解搜索引擎的工作原理. 2,大数据时代,要进行数据分析,首先要有数据源,学习爬虫,可以让我们获取更多的数据. 3,从业人员可以可好的利 ...
Python写网络后台脚本
Python写网络后台脚本. 首先安装Python3.6.5,在centos中自带的Python是2.6版本的,现在早就出现了3.6版本了况且2和3 之间的差距还是比较大的,所以我选择更新一下Pyth ...

随机推荐

Linux下安装配置SVN
1.检查系统上是否安装了SVN rpm -qa subversion 没有安装,则使用以下命令安装 yum -y install subversion 2.配置svn并启动svn服务 (1) 指定s ...
Python 扩展知识：编程习惯
1. 使用四个空格作为缩进而不是Tab键2. 函数名定义时第二个单词首字母大写,如 getNum,类名定义时所有单词首字母大写,如 GetNum
Discuz 模板标签说明
Discuz 模板标签说明 Discuz! 的模板采用近似 PHP 表达式的语法,基本都是可识别的HTML,但涉及到变量和动态内容时,基本形式下: <!-{ 代码内容 }-> 逻辑元素包围 ...
Objective-c官方文档翻译类的定义
类是对象的蓝图. 一个类是描述了对象的行为和属性.例如NSString的一个实例.他的类提供了各种的方法来转化和表示他的内部字符的表示. 每个类的实例都包含了这个类的属性和行为.例如每个NSSt ...
poj_3662 最小化第k大的值
题目大意有N个节点以及连接的P个无向边,现在要通过这P条边从1号节点连接到N号节点.若无法连接成功,则返回-1:若能够连接成功,那么其中用到了L条边,这L条边中有K条边可以免费,L-K条边不能免费, ...
GMT时间转换为当地时间的方法
1.取得当地时间与GMT时间的时间差 (new Date()).getTimezoneOffset() //单位为分钟 2.GMT时间加上与当地时间的时间差 (new Date(GMTTime)) ...
linux下php安装
nginx中配置php: http://www.111cn.net/sys/nginx/64044.htm
[HNOI2004] 打砖块
1292. [HNOI2004] 打砖块 ★★ 输入文件:brike.in 输出文件:brike.out 简单对比时间限制:1 s 内存限制:128 MB [题目描述] 在一个凹槽中放 ...
[SQL]批量更改字符集脚本，批量查询约束，批量查询索引
How to change collation of all database objects in SQL Server. Have you encountered a problem where ...
linux下远程服务器批量执行命令及SFTP上传文件 -- python实现
之前写过一个python远程执行命令的脚本,但在一个性能测试中,要将程序批量分发到不同服务器,程序无法使用,再将之前的脚本更新,加入批量上传的功能.之前脚本地址:http://www.cnblogs. ...

Python通用网络爬虫脚本

Python通用网络爬虫脚本的更多相关文章

随机推荐

热门专题