perl 循环类选择器 ,爬取内容

jrhmpt01:/root/lwp/0526# cat 0526.txt

<div class="TXD_sy_title"><span class="TXD_sy_text_1">天下金专区</span> <span class="TXD_sy_text_2">投资期限自选  可进行债权转让  100元起投  每月还息，到期还本</span><span class="TXD_sy_text_3" style="float: right"><a href="/AnJuJinIntroduce.html" target="_blank">产品介绍 ></a>    <a href="/AnJuJinIndex.html" target="_blank" class="grey">更多项目 ></a></span></div>

        <div class="anjlist" id="txjDiv">

            <ul class="altitle TXD_top_title">

                <li class="alcw1 TXD_top_title1">项目名称</li>

                <li class="alcw2">投资金额</li>

                <li class="alcw3">剩余投资期限</li>

                <li class="alcw4">预期年化收益</li>

                <li class="alcw4">进度</li>

                <li class="alcw5">起投金额</li>

                <li class="alcw6">操作</li>

            </ul>

                <ul class="alcomment" style="overflow: visible;">

                        <li class="alcw1"><a target="_blank" href="/invest/fd6b88342c69470fb8ae9365589f78aa.html">天下金 201605253763</a></li>

                    <li class="alcw2">1,000,000.00元</li>

                        <li class="alcw3">27 天</li>

                        <li class="alcw4">5.5% </li>

                    <li class="alcw4 alcw41">

                        <div class="ajjbfb txdbfb bfb100">100<span>%</span></div>

                    </li>

                    <li class="alcw5">100.00元</li>

                    <li class="alcw6">

                            <div class="txdbtns4 mt27 ml40"><a href="/invest/fd6b88342c69470fb8ae9365589f78aa.html" target="_blank" class="txdpng">查看</a></div>

                    </li>

                </ul>

jrhmpt01:/root/lwp/0526# cat a2.pl

use  LWP::UserAgent;

use DBI;

use POSIX;

use Data::Dumper;

use HTML::TreeBuilder;

my $ua = LWP::UserAgent->new;

$ua->timeout(10);

$ua->env_proxy;

$ua->agent("Mozilla/8.0");

 use HTML::TreeBuilder::XPath;

   $tree= HTML::TreeBuilder::XPath->new;

  $tree->parse_file( "0526.txt");

my    @pages=$tree->find_by_tag_name('li');

                      #先循环取出所有的li标签的 类选择器

                      foreach (@pages) {

                                               @titlepage = $_->attr('class');

                                               foreach (@titlepage) {

                                                 if ($_){

                                                print "\$_ is $_\n";

                                                unless ($_ ~~ @urlall) { push (@urlall ,$_);};

                                                     };

                                           };

};

print @urlall ;

print "\n";

##循环类选择器 查找li标签的@class="$var"的值，class代表类选择器: .开头

foreach my $var (@urlall){

#my $url=qq(/html/body//li[@class='$var']);

my $url="/html/body//li\[\@class=xxx\]";

$url =~ s/xxx/"$var"/g;

print "\$url is $url\n";

@total= $tree->findvalues("$url");

print @total;

print "\n";

#my @title= $tree->findvalues('/html/body//li[@class="alcw4 alcw41"]');

};

jrhmpt01:/root/lwp/0526# perl a2.pl

$_ is alcw1 TXD_top_title1

$_ is alcw2

$_ is alcw3

$_ is alcw4

$_ is alcw4

$_ is alcw5

$_ is alcw6

$_ is alcw1

$_ is alcw2

$_ is alcw3

$_ is alcw4

$_ is alcw4 alcw41

$_ is alcw5

$_ is alcw6

alcw1 TXD_top_title1alcw2alcw3alcw4alcw5alcw6alcw1alcw4 alcw41

$url is /html/body//li[@class="alcw1 TXD_top_title1"]

项目名称

$url is /html/body//li[@class="alcw2"]

投资金额1,000,000.00元

$url is /html/body//li[@class="alcw3"]

剩余投资期限27 天

$url is /html/body//li[@class="alcw4"]

预期年化收益进度5.5%

$url is /html/body//li[@class="alcw5"]

起投金额100.00元

$url is /html/body//li[@class="alcw6"]

操作查看

$url is /html/body//li[@class="alcw1"]

天下金 201605253763

$url is /html/body//li[@class="alcw4 alcw41"]

100%

perl 循环类选择器 ,爬取内容的更多相关文章

Scrapy教程——搭建环境、创建项目、爬取内容、保存文件
1.创建项目在开始爬取之前,您必须创建一个新的Scrapy项目.进入您打算存储代码的目录中,运行新建命令. 例如,我需要在D:\00Coding\Python\scrapy目录下存放该项目,打开命令 ...
简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容
简单的爬虫爬的完整的<img>标签,生成<img>标签结果文件与爬虫经历的网页. <?php/** 从给定的url获取html内容** */function _getUr ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
pymysql 使用twisted异步插入数据库：基于crawlspider爬取内容保存到本地mysql数据库
本文的前提是实现了整站内容的抓取,然后把抓取的内容保存到数据库. 可以参考另一篇已经实现整站抓取的文章:Scrapy 使用CrawlSpider整站抓取文章内容实现本文也是基于这篇文章代码基础上实现 ...
post请求方式的翻页爬取内容及思考
1 #coding=utf-8 import urllib2 import urllib import json output = open('huizho.json', 'w') for page ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
python 爬虫爬取内容时， \xa0 、 \u3000 的含义
最近用 scrapy 爬某网站,发现拿到的内容里面含有 \xa0 . \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少 233 . \xa0 是不间断空白符我们通常所用的 ...

随机推荐

Lua，Lua API，配置文件
想像一个场景:你的c程序须要有一个窗体,你想让用户能够自己定义窗体大小.方法非常多.比方使用环境变量,或键值对的文件. 无论如何,你须要解析它. 使用lua配置文件是个不错的选择. 首先,你能够定义例 ...
WinForm界面中快捷键设置
这是对整个界面的快捷键的设置,比如查询,保存. 1 protected override bool ProcessCmdKey(ref Message msg, Keys keyData) { if ...
【Eclipse Plugin】SonarQube 启动报错
由于近期,信息安全部在搞代码优化工作.所以,配合上边的工作需求,使用sonar对代码进行优化检测.在Eclipse上装Sonar很简单,只要在Eclipse Marketplace上面搜索“Sonar ...
Android百度地图之显示地图
添加地图显示一.在百度官网下载相关的SDK (网址:http://developer.baidu.com/map/sdkandev-download.htm) 解压下载好的BaiduMap_Andr ...
Group DataList
一,效果图. 二,源代码. <!DOCTYPE html><html><head> <meta charset="UTF-8"> & ...
make报错:"/usr/bin/ld: cannot find -lXXX"
在编译php时报错如下: # make ... /usr/bin/ld: cannot find -lltdlcollect2: ld returned 1 exit statusmake: *** ...
VC++界面编程之--使用分层窗口实现界面皮肤
使用分层界面来实现界面皮肤的好处是:可以保证图片边缘处理不失真,且能用于异形窗口上,如一些不规则的窗口,你很难用SetWindowRgn来达到理想效果. 在很多情况下,界面的漂亮与否,取决于PS的制作 ...
Failed to retrieve procctx from ht. constr
给一个客户巡检时发生这样的少见的集群报错: [ OCRSRV][1220598112]th_select_handler: Failed to retrieve procctx from ht. c ...
shell 脚本阅读之二——ltp工具下的runltp
#!/bin/sh ################################################################################ ## ## ## ...
HDU2191：悼念512汶川大地震遇难同胞——珍惜现在，感恩生活(多重背包)
Problem Description 急!灾区的食物依然短缺! 为了挽救灾区同胞的生命,心系灾区同胞的你准备自己采购一些粮食支援灾区,现在假设你一共有资金n元,而市场有m种大米,每种大米都是袋装产品 ...

perl 循环类选择器 ,爬取内容

perl 循环类选择器 ,爬取内容的更多相关文章

随机推荐

热门专题