PHP抓取网络数据

涉及到的知识点不多

file_get_contents：读取数据；

preg_match_all：正则匹配；

和匹配之后的数据分析。

不同网页所需要抓取的数据是不同的，所以正则表达式自然也不一样，针对抓取之后的数据的分析处理方式也不同。

用新浪的nba新闻为例，地址：http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml

列表页面

详细页面

页面整合

列表页面

第一步，分析这个页面的源码，找到需要匹配的标题的正则

列表页面的代码如下：

<?php

$con = file_get_contents ( "http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml" );

// echo $con;

$preg = '#<a  href="(.*)" target="_blank">(.*)</a></span><span class="c_time">(.*)</span></li>#iUs';

preg_match_all ( $preg, $con, $arr );

// var_dump($arr);

echo '<pre>';

$index=0;

foreach ( $arr[1] as $key => $value ) {

    //var_dump($value);//★这里是一些分析$arr的过程，分析之后可以知道$arr[1]、$arr[2]、$arr[3]分别是链接地址、标题文字内容、新闻日期时间

    //echo $value."<br>";//★

    echo (++$index).'.<a href="'.$value.'">'.$arr[2][$key].'</a><br>';//★注意这里的$arr[2][$key]就是标题内容，而href中的则是链接地址

}

echo '</pre>';

页面分析如图：

详细页面

之后是详细页面，同样随便找一条新闻的页面查看源码，分析新闻的标题以及具体内容的正则匹配：

代码如下：

<?php

//$con = file_get_contents ( "http://sports.sina.com.cn/nba/2013-08-29/12136747450.shtml" );

$con = file_get_contents ( $_GET["url"] );

$preg = '#<h1 id="artibodyTitle">(.*)</h1>#iUs';//标题的正则匹配

$arr= preg($preg, $con);

echo '<pre>';

foreach ($arr[0] as $key=>$value){

    echo $value."<br>";

}

$pregContent="#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end -->#iUs";//内容的正则匹配

$arrContent= preg($pregContent, $con);

foreach ($arrContent[0] as $key=>$value){

    echo $value;

}

echo '</pre>';

function preg($preg, $con) {

    preg_match_all ( $preg, $con, $arr );

    return $arr;

}

页面分析如图：

页面整合

最后一步整理，目的是自己处理之后的列表页直接跳转到对应的处理之后的详细页面，改动只有两个地方：1.列表页面最后echo的链接地址的href值 2 详细页面使用$_GET读取链接参数

最终代码如下：

1.列表页面

<?php

$con = file_get_contents ( "http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml" );

// echo $con;

$preg = '#<a  href="(.*)" target="_blank">(.*)</a></span><span class="c_time">(.*)</span></li>#iUs';

preg_match_all ( $preg, $con, $arr );

// var_dump($arr);

echo '<pre>';

$index=0;

foreach ( $arr[1] as $key => $value ) {

    //var_dump($value);//★

    //echo $value."<br>";//★

    //echo (++$index).'.<a href="'.$value.'">'.$arr[2][$key].'</a><br>';//★

    echo (++$index).'.<a href=20130829.catchDataInfo.php?url='.$value.'>'.$arr[2][$key].'</a><br>';//★链接到本地的详细页面，并且配置上url参数

}

echo '</pre>';

2.详细页面

<?php

//$con = file_get_contents ( "http://sports.sina.com.cn/nba/2013-08-29/12136747450.shtml" );

$con = file_get_contents ( $_GET["url"] );//读取链接参数

$preg = '#<h1 id="artibodyTitle">(.*)</h1>#iUs';//标题的正则匹配

$arr= preg($preg, $con);

echo '<pre>';

foreach ($arr[0] as $key=>$value){

    echo $value."<br>";

}

$pregContent="#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end -->#iUs";//内容的正则匹配

$arrContent= preg($pregContent, $con);

foreach ($arrContent[0] as $key=>$value){

    echo $value;

}

echo '</pre>';

function preg($preg, $con) {

    preg_match_all ( $preg, $con, $arr );

    return $arr;

}

PHP抓取网络数据的更多相关文章

iOS开发——网络实用技术OC篇&网络爬虫－使用青花瓷抓取网络数据
网络爬虫-使用青花瓷抓取网络数据由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...
iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
用C++实现网络编程---抓取网络数据包的实现方法
一般都熟悉sniffer这个工具,它可以捕捉流经本地网卡的所有数据包.抓取网络数据包进行分析有很多用处,如分析网络是否有网络病毒等异常数据,通信协议的分析(数据链路层协议.IP.UDP.TCP.甚至各 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
PHP几种抓取网络数据的常见方法
//本小节的名称为 fsockopen,curl与file_get_contents,具体是探讨这三种方式进行网络数据输入输出的一些汇总.关于 fsockopen 前面已经谈了不少,下面开始转入其它. ...
linux使用tcpdump抓包工具抓取网络数据包，多示例演示
tcpdump是linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式 tcpdump的参数众多,通过man tcpdump ...
Linux使用tcpdump抓取网络数据包示例
tcpdump是Linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式 tcpdump的参数众多,通过man tcpdump ...

随机推荐

KVC与KVO的不同
vc 就是一种通过字符串去间接操作对象属性的机制, 访问一个对象属性我们可以 person.age 也可以通过kvc的方式 [person valueForKey:@"age&quo ...
JNI概述
JNI是Java Native Interface的缩写,它提供了若干的API实现了Java和其他语言的通信(主要是C&C++). JNI 让你在利用强大 Java 平台的同时,使你仍然可以用 ...
Ubuntu 14 下，命令行终端显示短路径
Ubuntu的终端命令行默认是长路径,即把路径深度全部显示出来,操作起来不是很方便,下面介绍命令行显示短路径的操作: $ vi ~/.bashrc 找到PS1= 的行,将\w(小写)改成\W(大写 ...
Coherence代理节点在离开集群时的恢复
Coherence的架构参考在极端压力之下,有时候代理节点会忙于处理请求而不响应其他的心跳,同步,导致其他节点传输的报文没有回应,而被认为是离开集群,从而影响业务. 写了一段代码,能让进程在监听到有 ...
Shell--命令执行的判断依据：；，&&，||
:在命令与命令中间利用分号来隔开,这样一来,分号前得命令执行完后就会立刻接着执行后面的命令了 &&若第一个命令执行完毕并且正确执行也就是$?=0,则开始执行后一个命令,否则不执行 || ...
hibernate4配置文件hibernate.cfg.xml配置详解
<?xml version="1.0" encoding="UTF-8"?> 2 <!DOCTYPE hibernate-configurat ...
【Docker安全】关于Docker使用root与非root用户的场景中的容器与host中的执行用户的研究
参考: http://blog.csdn.net/yygydjkthh/article/details/47694929
NFSv4 mount incorrectly shows all files with ownership as nobody:nobody
NFSv4 mount incorrectly shows all files with ownership as nobody:nobody https://access.redhat.com/ ...
Tomcat：IOException while loading persisted sessions: java.io.EOFException 解决
转自:http://www.blogjava.net/apple0668/archive/2007/10/12/152383.html Tomcat启动时如下错误: 严重: IOException w ...
ASP.NET MVC之单元测试分分钟的事
一.为什么要进行单元测试? 大部分开发者都有个习惯(包括本人在内),常常不喜欢去做单元测试.因为我们对自己写的程序总是盲目自信,或者存在侥幸心理每次运行通过后就直接扔给测试组的妹子们了.结果妹子一测, ...

PHP抓取网络数据

PHP抓取网络数据的更多相关文章

随机推荐

热门专题