python Cmd实例之网络爬虫应用

标签（空格分隔）： python Cmd 爬虫

废话少说，直接上代码

# encoding=utf-8

import os

import multiprocessing

from cmd import Cmd

import commands

from mycrawler.dbUtil import DbUtil

import signal

# 下载监控

def run_download_watch():

    os.system("gnome-terminal -x bash -c 'python ./download_process.py' ")

# 下载文件

def run_download():

    os.system("gnome-terminal -x bash -c 'python ./download.py' ")

# 爬虫

def run_spider(arg):

    for i in range(len(arg)):

        os.system("gnome-terminal -x bash -c 'scrapy crawl %s'" % arg[i])

class CLI(Cmd):

    def __init__(self):

        Cmd.__init__(self)

        # 设置命令提示符

        self.prompt = ">>> "

        self.intro = '''

        欢迎进入爬虫控制台

        输入0:查看帮助'''

        self.doc_header = ''

        self.undoc_header = ''

        self.nohelp = "*** 命令%s没有帮助文档"

    def do_download(self, arg):

        '''    下载文件'''

        p2 = multiprocessing.Process(target=run_download)

        p2.start()

    def do_0(self, arg):

        self.do_help(1)

    def do_help(self, arg):

        def ddoc(ss, arg):

            try:

                doc = getattr(ss, 'do_' + arg).__doc__

                if doc:

                    print arg + ":"

                    print doc

                    return

            except AttributeError:

                ss.stdout.write("%s\n" % str(ss.nohelp % (arg,)))

        cmds_doc = []

        for name in self.get_names():

            if name[:3] == 'do_':

                cmds_doc.append(name[3:])

        print self.doc_header

        for c in cmds_doc:

            ddoc(self, c)

    # 添加新的爬虫连接

    def do_add(self, args):

        """    新增链接(厂商网址)到数据库中

    输入格式为:add name abb;start_urls www.baidu.com www.baidu.com www.baidu.com

    add是添加命令，后面的是参数。start_urls后面可以跟随多条数据，空格分开"""

        if not args:

            print "输入内容为空，请查看帮助：help add"

            return

        print args

        data = dict([(bb.split(' ')[0], len(bb.split(' ')[1:]) == 1 and bb.split(

            ' ')[1] or bb.split(' ')[1:]) for bb in args.split(';')])

        print data

        DbUtil().conn().collection('url_items').insert(data)

    # 列出所有的爬虫

    def do_list_spider(self, args):

        '''     列出所有的爬虫'''

        print commands.getoutput("scrapy list")

    # 运行一个爬虫

    def do_run_spider(self, arg):

        '''     运行一个爬虫，例如run_spider abb'''

        p3 = multiprocessing.Process(

            target=run_spider, args=(arg,))

        p3.start()

        # os.system('scrapy crawl ' + arg)

    def do_run(self, args):

        '''    运行所有的程序'''

        # 运行爬虫

        self.do_run_all_spiders(1)

        # 运行下载

        p2 = multiprocessing.Process(target=run_download)

        p2.start()

        # 运行下载监控

        p3 = multiprocessing.Process(target=run_download_watch)

        p3.start()

    # 运行所有的爬虫

    def do_run_all_spiders(self, arg):

        '''    运行所有的爬虫'''

        s = cmd('scrapy list').value().split('\n')

        if not s:

            print "没有爬虫，请检验代码是否正确"

            return

        p = multiprocessing.Process(

            target=run_spider, args=(s,))

        p.start()

        # os.system('./run_spider.sh ' + spider)

    def do_q(self, arg):

        '''    退出系统'''

        return True

    # emptyline

    def emptyline(self):

        os.system('clear')

        print '回车清屏，help帮助,tab补全'

    # 当无法识别输入的command时调用该方法

    def default(self, line):

        print '输入的命令' + repr(line) + '错误，请输入help查看命令帮助'

    # 退出之后调用该方法

    def postloop(self):

        print '谢谢使用'

    def completedefault(self, *ignored):

        return ['add', 'run_spider', 'run_all_spiders', 'list_spider']

if __name__ == "__main__":

    cli = CLI()

    cli.cmdloop()

python Cmd实例之网络爬虫应用的更多相关文章

企业级Python开发大佬利用网络爬虫技术实现自动发送天气预告邮件
前天小编带大家利用Python网络爬虫采集了天气网的实时信息,今天小编带大家更进一步,将采集到的天气信息直接发送到邮箱,带大家一起嗨~~拓展来说,这个功能放在企业级角度来看,只要我们拥有客户的邮箱,之 ...
python核心编程中网络爬虫的例子
#!/usr/bin/env python import cStringIO # import formatter # from htmllib import HTMLParser # We use ...
python学习之----初见网络爬虫（输出整个网页html的代码）
from urllib import urlopen html = urlopen('http://www.manluotuo.com') print (html.read()) 控制台输出整个网页h ...
智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...

随机推荐

JVM调优总结 + jstat 分析(转)
[转] JVM调优总结 + jstat 分析 JVM调优总结 + jstat 分析 jstat -gccause pid 1 每格1毫秒输出结果jstat -gccause pid 2000 每格2秒 ...
SQL语句优化技术分析
一.操作符优化 1.IN 操作符用IN写出来的SQL的优点是比较容易写及清晰易懂,这比较适合现代软件开发的风格.但是用IN的SQL性能总是比较低的,从Oracle执行的步骤来分析用IN的SQL与不用 ...
开源一行代码实现多形式多动画的推送小红点WZLBadge(iOS)－备用
更新日志 V1.2 2015.09.25 1.UITabBarItem badge is supproted; 2.Enable change badge properties when badge ...
simulate windows postmessage or keydown
2 ways: 1. under TForm: if assigned(focused) then Focused.keydown(key,keychar,[]); 2. using s ...
微软开源PowerShell并支持Linux和OS X
[微软在开源的道路上加速度了] 从一开始的各种对抗,各种通吃,到现在开始做服务,包罗万象.果然,换了主力,大有不同. 微软今天还宣布开源其.NET框架,令.NET Core能在Linux和OS X上运 ...
android使用BlueStacks作为模拟器
android原生的模拟器启动比较慢,偶尔还会出现一些莫名的问题,我们除了可以使用我们的android手机来进行调试外,还可以使用第三方的android模拟器,例如BlueStacks模拟器: 相对原 ...
VC++如何在程序中用代码注册和卸载ocx控件（代码）
方法一:在dos或Windows命令行下运行:regsvr32 ocxname.ocx 注册示例:regsvr32 netshare.ocx //注册netshare.ocx控件regsvr ...
Matlab画图常用的符号和颜色
线型说明标记符说明颜色说明 - 实线(默认) + 加号符 r 红色 -- 双划线 o 空心圆 g 绿色 : 虚线 * 星号 b 蓝色 :. 点划线 . 实心圆 c 青绿色 x 叉号符 m 洋 ...
python标准库基础之mmap：内存映射文件
#作用:建立内存映射文件而不是直接读取内容文本信息内容:如下(名称是text.txt) Lorem ipsum dolor sit amet, consectetuer adipiscing elit ...
JavaScript 克隆对象
function clone(origin) { return Object.assign({}, origin); } let aClone = { ...a }; // 等同于 let aClon ...

python Cmd实例之网络爬虫应用

python Cmd实例之网络爬虫应用

python Cmd实例之网络爬虫应用的更多相关文章

随机推荐

热门专题