Python通用网络爬虫脚本

 from sys import argv

 from os import makedirs,unlink,sep,mkdir

 from os.path import dirname,exists,isdir,splitext

 from string import replace,find,lower

 from htmllib import HTMLParser

 from urllib import urlretrieve

 from urlparse import urlparse,urljoin

 from formatter import DumbWriter,AbstractFormatter

 from cStringIO import StringIO

 class Retriever(object):

     def __init__(self,url):

         self.url = url

         self.file = 'E:\install\Python27\\' + self.filename(url)

     def filename(self,url,deffile='index.htm'):

         parsedurl = urlparse(url,'http:',0)

         path = parsedurl[1] + parsedurl[2]

         ext = splitext(path) # seperate ext name

         if ext[1] == '':

             if path[-1] == '/':

                 path += deffile

             else:

                 path += '/' + deffile

         ldir = dirname(path)

         if sep != '/':

             ldir = replace(ldir,'/',sep)

         if not isdir(ldir):

             if exists(ldir): unlink(ldir)

             makedirs(ldir)

         return path

     def download(self):

         try:

             retval = urlretrieve(self.url,self.file)

         except IOError:

             retval = ('*** ERROR: invalid URL "%s"' %\

                 self.url)

         return retval

     def parseAndGetLinks(self):

         self.parser = HTMLParser(AbstractFormatter(DumbWriter(StringIO())))

         self.parser.feed(open(self.file).read())

         self.parser.close()

         return self.parser.anchorlist

 class Crawler(object):

     count = 0 # static downloaded page counter

     def __init__(self,url):

         self.q = [url]

         self.seen = []

         self.dom = urlparse(url)[1]

     def getPage(self,url):

         r = Retriever(url)

         retval = r.download()

         if retval[0] == '*':

             print retval,'...skipping parse'

             return

         Crawler.count += 1

         print '\n(',Crawler.count,')'

         print 'URL:',url

         print 'FILE:',retval[0]

         self.seen.append(url)

         links = r.parseAndGetLinks()

         for eachLink in links:

             if eachLink[:4] != 'http' and find(eachLink,'://') == -1:

                 eachLink = urljoin(url,eachLink)

             if find(lower(eachLink),'mailto:') != -1:

                 print '...discarded,mailto link'

                 continue

             if eachLink not in self.seen:

                 if find(eachLink,self.dom) == -1:

                     print '...discarded,not in domain'

                 else:

                     if eachLink not in self.q:

                         self.q.append(eachLink)

                         print '...new,added to Q'

                     else:

                         print '...discarded,already in Q'

             else:

                 print '...discarded,already processed'

     def go(self):#process links in queue

         while self.q:

             url = self.q.pop()

             self.getPage(url)

 def main():

     if len(argv) > 1:

         url = argv[1]

     else:

         try:

             url = raw_input('Enter starting URL:')

         except(KeyboardInerrupt,EOFError):

             url = ''

         if not url: return

         robot = Crawler(url)

         robot.go()

 if __name__ == '__main__':

     main()

Python通用网络爬虫脚本的更多相关文章

Python即时网络爬虫：API说明
API说明——下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...
python实战——网络爬虫
学习网络爬虫的目的: 1,可以私人定制一个搜索引擎,可以深层次的了解搜索引擎的工作原理. 2,大数据时代,要进行数据分析,首先要有数据源,学习爬虫,可以让我们获取更多的数据. 3,从业人员可以可好的利 ...
Python写网络后台脚本
Python写网络后台脚本. 首先安装Python3.6.5,在centos中自带的Python是2.6版本的,现在早就出现了3.6版本了况且2和3 之间的差距还是比较大的,所以我选择更新一下Pyth ...

随机推荐

ZooKeeper（七）-- ZK原生API实现分布式锁
一.使用场景在分布式应用,往往存在多个进程提供同一服务.这些进程有可能在相同的机器上,也有可能分布在不同的机器上. 如果这些进程共享了一些资源,可能就需要分布式锁来锁定对这些资源的访问. 二.实现分 ...
Redis（八）-- Redis分布式锁实现
一.使用分布式锁要满足的几个条件系统是一个分布式系统(关键是分布式,单机的可以使用ReentrantLock或者synchronized代码块来实现) 共享资源(各个系统访问同一个资源,资源的载体可 ...
unable to execute dex:GC overhead limit exceeded unable to execute dex:java heap space 解决方案
最近做厂商适配,厂商提供了一部分Framework的jar包,把jar包通过Add Jar放到Build Path中, 在生成APK过程中,Eclipse长时间停留在100%那个进度. 最后Eclip ...
PyQt4关闭窗口
一个显而易见的关闭窗口的方式是但集标题兰有上角的X标记.接下来的示例展示如何用代码来关闭程序,并简要介绍Qt的信号和槽机制. 下面是QPushButton的构造函数,我们将会在下面的示例中使用它. Q ...
/usr/local/java/jdk1.8.0_11
php数据访问之查询关键字
本文根据数据库中的car表做一个汽车查询页面,巩固php查询关键字操作,感兴趣的小伙伴们可以参考一下本文实例为大家分享了php查询操作的实现代码,供大家参考,具体内容如下一.一个关键字查询主 ...
MQTT协议笔记之mqtt.io项目TCP协议支持
前言 MQTT定义了物联网传输协议,其标准倾向于原始TCP实现.构建于TCP的上层协议堆栈,诸如HTTP等,在空间上多了一些处理路径,稍微耗费了CPU和内存,虽看似微乎其微,但对很多处理能力不足的嵌入 ...
The 70th problem，UVa10396 Vampire Numbers
今天看Thinking in Java看到一个吸血鬼数的问题,于是查找UVa里也有类似的问题就动手写了先是用Java写的,不过WA了两次,然后没有发现错误,又用c++写的还是不行.最后发现要排序去重. ...
linux常用的一些访问目录
救命三键(Ctrl+Alt+Delete) /var/log 如果是网络服务的问题时,请到这个目录里头去查阅一下 log file (登录档): /etc/rc.local 修改挂载 ...
从一次渗透谈到linux如何反弹shell
零.绪论背景: ThinkPHP框架的--> 找到一个OS命令注入(很简单的Burp可以直接扫出来的那种):页面配置系统默认网关处. 一.渗透过程 1.首先看了一下,没有回显. 2.用ceye ...

Python通用网络爬虫脚本

Python通用网络爬虫脚本的更多相关文章

随机推荐

热门专题