Perl爬取铁路违章旅客信息

#! /usr/bin/perl

use strict;

use Encode qw(encode decode);

binmode(STDIN,":encoding(utf8)");

binmode(STDOUT,":encoding(utf8)");

binmode(STDERR,":encoding(utf8)");

use LWP::Simple;

use LWP::UserAgent;

use HTTP::Request;

use HTTP::Response;

use HTML::TreeBuilder;

#构造urls

my @urls;

for(my $i=1;$i<15;$i++){

	my $url="http://218.94.123.13:9001/index.htm?name=&pageNo=$i";

	print $url,"\n";

	push(@urls,$url)

}

open FD ,">>/home/abcd/file";

binmode(FD,":encoding(utf8)");

map{getinfo($_)}@urls;

sub getinfo{

	my $url=shift;

	my $browser=LWP::UserAgent->new(); #模拟浏览器

	my $request=HTTP::Request->new("GET"=>"$url"); #生成请求

	my $response=$browser->request($request); #浏览器接收请求

	my $html=$response->content;

	$html=decode("utf8", $html);

	my $p=HTML::TreeBuilder->new_from_content($html);

	my @element1=$p->look_down(_tag=>"tr",class=>"tab_td");

	my @element2=$p->look_down(_tag=>"tr",class=>"");

	foreach(@element1){

		my @data=$_->find_by_tag_name("td");

		print FD join("||",map{$_->as_text}@data),"\n";

	}

	foreach(@element2){

		my @data=$_->find_by_tag_name("td");

		print FD join("||",map{$_->as_text}@data),"\n";

	}

}

Perl爬取铁路违章旅客信息的更多相关文章

perl 爬取某理财网站产品信息
use LWP::UserAgent; use utf8; use DBI; $user="root"; $passwd="xxxxx"; $dbh=" ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
爬取ofo共享单车信息
前段时间看到很多微信公众号在转发一篇爬取mobike单车的信息,也不知道什么原因,在网上搜索了下很少有人在爬取ofo共享单车的数据,所以决定看看可以爬取ofo共享单车的那些数据. 抓取数据开始的时候, ...

随机推荐

WM_MOUSELEAVE和WM_MOUSEHOVER使用
默认情况下,窗口是不响应 WM_MOUSELEAVE 和 WM_MOUSEHOVER 消息的,所以要使用 _TrackMouseEvent 函数来激活这两个消息.调用这个函数后,当鼠标在指定窗口上 ...
nginx-my
#user nobody; 3 worker_processes 1; 4 5 error_log logs/error.log; 6 #error_log logs/error.log notice ...
[Maven]Maven 那点事儿
0. 前言 Jason Van Zyl,在 Java 十大风云人物排行榜上或许会看到他. 这兄弟是干嘛的? 他就是 Maven 的创始人,人们都尊称他为"Maven 他爸". 毋庸 ...
Android屏幕适配全攻略 (转载)
http://blog.csdn.net/jdsjlzx/article/details/45891551 https://github.com/hongyangAndroid/AndroidAuto ...
MyEclipse中代码格式化后自动换行
MyEclipse的默认设置里面各种坑人,怎么不方便怎么设置,用户体验差到极点.今天又遇到个问题,按下Ctrl + Shift + F 后,自动格式化后的代码原来只有一行,结果变成了3行,看着都想吐. ...
Python format格式化输出
http://www.jb51.net/article/63672.htm 推荐参考 >>> '{0},{1}'.format('hello','python') 'hello,py ...
[DFNews] Cellebrite UFED Logical/Physical Analyzer 3.8.1 维护性更新
Maintenance Release Cellebrite has released a maintenance version of UFED Physical / Log ...
EA使用
类逻辑图关系1:泛化(继承),Driver和Northeastermer继承了Person类关系2:实现,Northeastermer实现了LivingLeiFeng类关系3: 关联,两个对象 ...
双系统先装Windows，后装linux的原因
由于windows在安装时,boot loader会预设装在MBR及分割槽的boot sector中,而且并不提供开机选单:而linux在安装时安装程序可以选择是安装在MBR中还是boot secto ...
Linux 脚本命令结果输出到文件
From: http://bbs.chinaunix.net/thread-1997207-1-1.html sh test.sh | tee log.txt

Perl爬取铁路违章旅客信息

Perl爬取铁路违章旅客信息的更多相关文章

随机推荐

热门专题