基于perl的网络爬虫

use Mojo::UserAgent;

use Bloom::Filter;

use Smart::Comments;

use DBI;

my $dbname = "bbs_url";

my $location = "localhost";

my $port = "3306";

my $database = "DBI:mysql:$dbname:$location:$port";

my $db_user = "root";

my $db_pass = "toor";

my $dbh = DBI->connect($database,$db_user,$db_pass);

my $dept_level = ;

my $baseUrl = Mojo::URL->new($ARGV[] || 'http://bbs.xxxxx.cn/');

my ($domain) = $baseUrl =~ qr#http://(?:www.)?([^/]+)#;

my $filter = Bloom::Filter->new(capacity => , error_rate => 0.0001);

my $ua = Mojo::UserAgent->new(max_redirects => );

$name="xxxxx";

my $query = "CREATE TABLE $name("." `No` int(100) NOT NULL auto_increment,"." `depth` int(10) NOT NULL,"." `Url` text  NOT NULL, PRIMARY KEY  (`No`) ".") ENGINE=MyISAM  DEFAULT CHARSET=utf8;";

my $sth = $dbh->prepare($query);

$sth->execute() or die "create table student error: ".$sth->errstr();

my $callback;$callback = sub  {

    my ($ua, $tx) = @_;

    #open(FD,">>url.txt")|| die ("Could not open file");

    return if !$tx->success;

    my $dept = $tx->req->headers->header('dept');

    return if $dept > $dept_level;

    ++$dept;

    $tx->res->dom->find("a[href]")->each(sub{

            my $attrs  = shift->attrs;

            my $newUrl = Mojo::URL->new($attrs->{href});

            if (!$newUrl->host and !$newUrl->scheme) {

                $newUrl->host($tx->req->url->host);

                $newUrl->scheme($tx->req->url->scheme);

            }

            $newUrl->fragment(undef);

            next if ( $newUrl->scheme ne 'http' && $newUrl->scheme ne 'https' );

            next if $newUrl->host !~ qr/$domain/;

            next if ( $newUrl->path =~ /.(jpg|png|bmp|mp3|wma|wmv|gz|zip|rar|iso|pdf)$/i );

            if( !$filter->check($newUrl) ) {

        if(($filter->key_count())% ==){

                print $filter->key_count(), " $dept ", $newUrl, "\n";

        }

        if($dept== || $dept == || $dept ==){

        #$n++;

            #print FD $filter->key_count(),"\t",$dept,"\t",$newUrl,"\n";

         my $sql="insert into $name(depth,Url) values('$dept','$newUrl')";

         my $sth=$dbh->prepare("$sql");

         $sth->execute();

         $sth->finish();

               }

        #if($dept==4){

        #$n++;

            #print FD $filter->key_count(),"\t",$dept,"\t",$newUrl,"\n";

         #my $sql="insert into $names(depth,Url) values('$dept','$newUrl')";

         #my $sth=$dbh->prepare("$sql");

         #$sth->execute();

         #$sth->finish();

             # }

                $filter->add($newUrl);

                $ua->get($newUrl => { dept => $dept } => $callback);

            }

    });

};

$ua->get($baseUrl => { dept => } => $callback);

Mojo::IOLoop->start;

基于perl的网络爬虫的更多相关文章

【java爬虫】---爬虫+基于接口的网络爬虫
爬虫+基于接口的网络爬虫上一篇讲了[java爬虫]---爬虫+jsoup轻松爬博客,该方式有个很大的局限性,就是你通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的所有新闻.如果需要爬一个网站 ...
基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
基于HttpClient实现网络爬虫~以百度新闻为例
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/40891791 基于HttpClient4.5实现网络爬虫请訪问这里:http:/ ...
android基于MVP小说网络爬虫、宝贝社区APP、仿虎扑钉钉应用、滑动阴影效果等源码
Android精选源码 android宝贝社区app源码 android仿Tinder最漂亮的一个滑动效果 android仿滴滴打车开具发票页,ListView粘性Header Android基于MV ...
爬虫学习之基于Scrapy的网络爬虫
###概述在上一篇文章<爬虫学习之一个简单的网络爬虫>中我们对爬虫的概念有了一个初步的认识,并且通过Python的一些第三方库很方便的提取了我们想要的内容,但是通常面对工作当作复杂的需求 ...
2019基于python的网络爬虫系列，爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beaut ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...
《Python编程》课程报告 python技术在数据分析中的应用之网络爬虫
摘要:... 2 1 引言 :... 2 1.1课题研究背景和研究现状... 2 1.1.1课题背景和目的... 3 1.1.2研究现状... 4 1.1.2.1语言... 4 1.1 ...

随机推荐

洛谷P1457 城堡 The Castle
P1457 城堡 The Castle 137通过 279提交题目提供者该用户不存在标签USACO 难度提高+/省选- 提交讨论题解最新讨论暂时没有讨论题目描述我们憨厚的USACO ...
Activity使用Dialog样式导致点击空白处自动关闭的问题
将Activity设置成窗口的样式实现Dialog或者Popupwindow效果在开发中是很常用的一种方式,在AndroidMenifest.xml中将需要设置的Activity增加android:t ...
使用UI Automation实现自动化测试 --微软提供的控件Pattern
微软提供的控件Pattern System.Windows.Automation 命名空间 System.Windows.Automation.BasePattern 为控件模式类提供基实现 Syst ...
android屏幕基础知识
首先,先来上一张图,看看android屏幕分辨率的占比情况什么是dp,dip,dpi,sp.px ?之间的关系是什么? px:构成图像的最小单位 dp/dip:密度无关像素以160dpi为基准 1 ...
c#实现每隔规定时间自动执行程序代码
c#实现每隔规定时间自动执行程序代码在一般的项目中我们很少用到c#实现每隔规定时间自动执行程序代码,但是如果你经历的项目多,或者应用程序做的比较多的话,c#实现每隔规定时间自动执行程序代码就用的比 ...
vim的.vimrc文件设置
set nocompatibleset autowriteset autoreadset nobackupset noswapfile " --- syntax and indent --- ...
iOS 层层推进实现代理模式
1.代理模式核心思想:A类委托B类做某件事,然后A类获取B类的执行的返回结果! 举例:女孩想去买电影票,但是自己不亲自去而是委托男孩了解电影电影票信息,同时女孩获得男孩买票的结果,代码模拟实现: /* ...
对C语言中va_list，va_start，va_arg和va_end的一点理解
这几个函数和变量是针对可变参数函数的,什么是可变参数函数呢,最经典的莫过于printf和scanf,这两个函数的声明如下: int printf(const char *format, ...); i ...
js对文章内容进行分页示例代码
这篇文章主要介绍了使用js对文章内容进行分页的具体实现,需要的朋友可以参考下 Thinkphp中文章显示代码: 代码如下: <div id="showContent"> ...
dedecms 调用channel子栏目的id问题
dedecms 说明文档:http://www.dedecms.com/archives/templethelp/help/taghelp.htm {dede:channel type='son' t ...

基于perl的网络爬虫

基于perl的网络爬虫的更多相关文章

随机推荐

热门专题