MiniCrowler
MiniCrawler
Github Path :
https://github.com/LixinZhang/miniCrowler
Introduction:
- MiniCrawler is a simple web crawler implemented by Python.
- Threadpool tech is used to speed up fetching pages. 
- One can config the crawler through modify the file - config.py. And start the crawling job using- python run.py.
- The webs pages fetched will be stored in pagesfolder.
- check_status.pyhelps you check the job's status as following:
Rank Hostname Times
----------------------------------------
1 buaa.edu.cn 40
2 baixing.com 32
3 cnblogs.com 29
4 hao123.com 5
5 xinhuanet.com 2
6 visionplaza.cn 2
7 people.com.cn 2
8 org.cn 2
9 news.cn 2
10 most.gov.cn 2
More Detail
You can find more detail in my Chinese Blog. Python 多线程抓取网页
MiniCrowler的更多相关文章
随机推荐
- [游戏学习27] MFC 匀速运动
			>_<:理解上一个时间函数的概念和用法,本节的实现也比较简单 >_<:就是简单的绘图+时间函数 >_<:TicTac.h #define EX 1 //该点左鼠标 ... 
- SSRS 迁移
			一.数据库备份 备份源数据库:ReportServer和ReportServerTempDB (注意是全备份) 二.数据库还原 还原之前先停掉SSRS 还原至目标数据库:ReportServer和Re ... 
- 点击div外面该div消失
			<head> <meta charset="UTF-8"> <title></title> <script type=&quo ... 
- Windows Error Code(windows错误代码详解)
			0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足,无法处理此 ... 
- iOS-UIViewController视图控制器跳转界面的几种常用方法
			一.最普通的视图控制器UIViewContoller 一个普通的视图控制器一般只有模态跳转的功能(ipad我不了解除外,这里只说iPhone),这个方法是所有视图控制器对象都可以用的,而实现这种功能, ... 
- python元类
			第一个实例: # coding=utf8 # 手动创建,返回一个类对象 MyShinyClass = type('MyShinyClass', () ,{}) print(MyShinyClass) ... 
- 详解Bootstrap按钮组件
			按钮组也是一个独立的组件,所以可以找到相应的源码文件: Less:buttons.less Sass:_buttons.scss Css:Bootstrap.css 3131行~3291行 按钮 ... 
- DataWindow.Net 2.5 配置
			在用过的所有的开发工具中,感觉最简单好用的就数PB了,他的DataWindow最方便,拖拖拽拽就把报表做好了,可惜现在很少人有用了.现在C/S系统一般用C#来做,但是做报表的时候总感觉没有DataWi ... 
- react native TypeError network request failed
			如果使用fetch获取数据,用的是POST方法,注意headers要添加请求头.当请求为GET时不能用body,当为POST时必须包含body,设置头部之后就一切正常了. fetch(&q ... 
- Android的消息机制: Message/MessageQueue/Handler/Looper
			概览 * Message:消息.消息里面可包含简单数据.Object和Bundle,还可以包含一个Runnable(实际上可看做回调). * MessageQueue:消息队列,供Looper线程 ... 
