Python_网页爬虫

 import sys

 import multiprocessing

 import re

 import os

 import urllib.request as lib

 def craw_links( url,depth,keyword,processed):

     ''' url:the url to craw

         deth:the current depth to craw

         keyword:the tuple of keywords to focus

         pool:process pool

     '''

     contents=[]

     if url.startswith(('htpp://','https://')):

         if url not in processed:

             #mark this url as processed

             processed.append(url)

         else:

             #avoid prossing the same url again

             return

         print('Crawing '+url+'...')

         fp = lib.urlopen(url)

         #python3 returns bytes,so need to decode

         contents = fp.read()

         contents_decoded = contents.decode('UTF-8')

         fp.close()

         pattern = '|'.join(keyword)

         #if this page contains certain keywords,save it to a file

         flag = False

         if pattern:

             searched = re.search(pattern,contents_decoded)

         else:

             #if the keywords to filter is not given,save current page

             flag = True

         if flag or searched:

             with open('craw\\'+url.replace(':','_').replace('/','_'),'wb')  as fp:

                 fp.write(contents)

         #find all the links in the current page

         links = re.findall('href="(.*?)"',contents_decoded)

         #craw all links in the current page

         for link in links:

             #consider the relative path

             if not link.startswith(('http://','https://')):

                 try:

                     index=url.rindex('/')

                     link = url[0:index+1]+link

                 except:

                     pass

             if depth>0 and link.endswith(('.htm','.html')):

                 craw_links(link,depth-1,keyword,processed)

 if __name__ == '__main__':

     processed = []

     keywords = ('KeyWord1','KeyWord2')

     if os.path.exists('craw') or not os.path.isdir('craw'):

         os.mkdir('craw')

     craw_links(r'http://docs.python.org/3/library/index.html',1,keywords,processed)

Python_网页爬虫的更多相关文章

cURL 学习笔记与总结（2）网页爬虫、天气预报
例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler): spider.php <?php /* 获取百度html的简单网页爬虫 */ $curl = curl_init( ...
c#网页爬虫初探
一个简单的网页爬虫例子! html代码: <head runat="server"> <title>c#爬网</title> </head ...
网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
网页爬虫的设计与实现（Java版）
网页爬虫的设计与实现(Java版) 最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
[resource-]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4% ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
Java正则表达式--网页爬虫
网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据爬取邮箱地址,爬取的源不同,本地爬取或者是网络爬取 (1)爬取本地数据: public static List<String> ...
从robots.txt開始网页爬虫之旅
做个网页爬虫或搜索引擎(下面统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎訪问站点的时候查看的第一个文件就是robots.txt了.robots.txt文件告诉蜘蛛程序在server上什么文件是能 ...

随机推荐

（十八）TableView实践（多组汽车品牌展示）
对于多组数据,可能会用到模型的嵌套. 例如多组汽车,每组是一个模型,组内有多辆车的信息,每辆车的信息也是一个模型,相当于模型中有模型. 可以看到,每个item是一个字典,这要创建一个模型,而模型内部的 ...
Java之美[从菜鸟到高手演变]之设计模式三
本章是关于设计模式的最后一讲,会讲到第三种设计模式--行为型模式,共11种:策略模式.模板方法模式.观察者模式.迭代子模式.责任链模式.命令模式.备忘录模式.状态模式.访问者模式.中介者模式.解释器模 ...
Mapreduce 框架解析
MapReduce过程解析一.客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的. public static RunningJob runJob(JobConf job) thro ...
android自定义状态栏颜色
我们知道IOS上的应用,状态栏的颜色总能与应用标题栏颜色保持一致,用户体验很不错,那安卓是否可以呢?若是在安卓4.4之前,答案是否定的,但在4.4之后,谷歌允许开发者自定义状态栏背景颜色啦,这是个不错 ...
苹果新的编程语言 Swift 语言进阶（十六）－－泛型
泛型允许你定义一个宽松.可重用的函数或者类型,使用泛型能够避免代码的重复,也能以更清楚和抽象的方式来表达程序的意图. 泛型是Swift语言提供的强大功能之一,Swift提供的许多标准库都使用了泛型来创 ...
Android 内核常见目录的作用
/ :根目录 /bin目录 :命令保存目录,普通用户就可以读取的命令. /boot目录 :启动目录,启动相关文件 /dev :设备文件保存目录 /etc :配置文件保存目录 /home :普通用户的家 ...
LeetCode之“动态规划”：Decode Ways
题目链接题目要求: A message containing letters from A-Z is being encoded to numbers using the following map ...
Android studio导入工程很卡及下载网络jar很慢问题总结
AndroidStudio导入项目一直卡在Building gradle project info,实际上是因为你导入的这个项目使用的gradle与你已经拥有的gradle版本不一致,导致需要下载该项 ...
Android 高逼格纯代码实现类似微信钱包带分割线的GridView
前言原文地址:http://blog.csdn.net/sk719887916/article/details/40348837: Tamic 通过上两篇关于自定view的文章,在自定义vie ...
Google主推-Android开发利器——Android Studio，这可能是最全的AS教程！
Android Studio使用手册 "工欲善其事必先利其器" 作为一个Android开发人员来说,一款好的开发工具也是相当重要的,在相当长的时间礼,Google都是基于Eclip ...

Python_网页爬虫

Python_网页爬虫的更多相关文章

随机推荐

热门专题