PHP抓取网络数据
涉及到的知识点不多
file_get_contents:读取数据;
preg_match_all:正则匹配;
和匹配之后的数据分析。
不同网页所需要抓取的数据是不同的,所以正则表达式自然也不一样,针对抓取之后的数据的分析处理方式也不同。
用新浪的nba新闻为例,地址:http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml
- 列表页面
第一步,分析这个页面的源码,找到需要匹配的标题的正则

列表页面的代码如下:
<?php
$con = file_get_contents ( "http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml" );
// echo $con;
$preg = '#<a href="(.*)" target="_blank">(.*)</a></span><span class="c_time">(.*)</span></li>#iUs';
preg_match_all ( $preg, $con, $arr );
// var_dump($arr);
echo '<pre>';
$index=0;
foreach ( $arr[1] as $key => $value ) {
//var_dump($value);//★这里是一些分析$arr的过程,分析之后可以知道$arr[1]、$arr[2]、$arr[3]分别是链接地址、标题文字内容、新闻日期时间
//echo $value."<br>";//★ echo (++$index).'.<a href="'.$value.'">'.$arr[2][$key].'</a><br>';//★注意这里的$arr[2][$key]就是标题内容,而href中的则是链接地址 } echo '</pre>';
页面分析如图:

- 详细页面
之后是详细页面,同样随便找一条新闻的页面查看源码,分析新闻的标题以及具体内容的正则匹配:

代码如下:
<?php
//$con = file_get_contents ( "http://sports.sina.com.cn/nba/2013-08-29/12136747450.shtml" );
$con = file_get_contents ( $_GET["url"] ); $preg = '#<h1 id="artibodyTitle">(.*)</h1>#iUs';//标题的正则匹配
$arr= preg($preg, $con);
echo '<pre>';
foreach ($arr[0] as $key=>$value){
echo $value."<br>";
} $pregContent="#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end -->#iUs";//内容的正则匹配
$arrContent= preg($pregContent, $con); foreach ($arrContent[0] as $key=>$value){
echo $value;
} echo '</pre>'; function preg($preg, $con) {
preg_match_all ( $preg, $con, $arr );
return $arr;
}
页面分析如图:

- 页面整合
最后一步整理,目的是自己处理之后的列表页直接跳转到对应的处理之后的详细页面,改动只有两个地方:1.列表页面最后echo的链接地址的href值 2 详细页面使用$_GET读取链接参数
最终代码如下:
1.列表页面
<?php
$con = file_get_contents ( "http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml" );
// echo $con;
$preg = '#<a href="(.*)" target="_blank">(.*)</a></span><span class="c_time">(.*)</span></li>#iUs';
preg_match_all ( $preg, $con, $arr );
// var_dump($arr);
echo '<pre>';
$index=0;
foreach ( $arr[1] as $key => $value ) {
//var_dump($value);//★
//echo $value."<br>";//★ //echo (++$index).'.<a href="'.$value.'">'.$arr[2][$key].'</a><br>';//★
echo (++$index).'.<a href=20130829.catchDataInfo.php?url='.$value.'>'.$arr[2][$key].'</a><br>';//★链接到本地的详细页面,并且配置上url参数 } echo '</pre>';
2.详细页面
<?php
//$con = file_get_contents ( "http://sports.sina.com.cn/nba/2013-08-29/12136747450.shtml" );
$con = file_get_contents ( $_GET["url"] );//读取链接参数 $preg = '#<h1 id="artibodyTitle">(.*)</h1>#iUs';//标题的正则匹配
$arr= preg($preg, $con);
echo '<pre>';
foreach ($arr[0] as $key=>$value){
echo $value."<br>";
} $pregContent="#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end -->#iUs";//内容的正则匹配
$arrContent= preg($pregContent, $con); foreach ($arrContent[0] as $key=>$value){
echo $value;
} echo '</pre>'; function preg($preg, $con) {
preg_match_all ( $preg, $con, $arr );
return $arr;
}
PHP抓取网络数据的更多相关文章
- iOS开发——网络实用技术OC篇&网络爬虫-使用青花瓷抓取网络数据
网络爬虫-使用青花瓷抓取网络数据 由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...
- iOS开发——网络使用技术OC篇&网络爬虫-使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
- iOS—网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- 用C++实现网络编程---抓取网络数据包的实现方法
一般都熟悉sniffer这个工具,它可以捕捉流经本地网卡的所有数据包.抓取网络数据包进行分析有很多用处,如分析网络是否有网络病毒等异常数据,通信协议的分析(数据链路层协议.IP.UDP.TCP.甚至各 ...
- iOS开发——网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包 主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
- PHP几种抓取网络数据的常见方法
//本小节的名称为 fsockopen,curl与file_get_contents,具体是探讨这三种方式进行网络数据输入输出的一些汇总.关于 fsockopen 前面已经谈了不少,下面开始转入其它. ...
- linux使用tcpdump抓包工具抓取网络数据包,多示例演示
tcpdump是linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式 tcpdump的参数众多,通过man tcpdump ...
- Linux使用tcpdump抓取网络数据包示例
tcpdump是Linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式 tcpdump的参数众多,通过man tcpdump ...
随机推荐
- 显示/隐藏Mac系统中所有的隐藏文件
显示: 在终端输入:defaults write com.apple.finder AppleShowAllFiles YES 隐藏: 在终端输入:defaults write com.apple.f ...
- Linux下使用xargs得到字符串作为参数进行输出、awk得到字符串作为参数进行输出
背景: cat test.txt 实例: 1.xargs cat test.txt | xargs -i echo {} cat test.txt | xargs -I {} echo {} 大小写i ...
- REST和SOAP区别
转载于: http://blog.csdn.net/idafish/article/details/6308916 REST似乎在一夜间兴起了,这可能引起一些争议,反对者可以说REST是WEB诞生之 ...
- 基于CentOS与VmwareStation10搭建Oracle11G RAC 64集群环境:3.安装Oracle RAC-3.5.安装oracle11gr2 database 软件与创建数据库
3.5.安装oracle11gr2 database 软件与创建数据库 3.5.1.安装Oracle 11gr2 Database 以oracle 用户登录到节点一,切换到软件安装目录,执行安装. 在 ...
- LVS负载均衡之NAT模式部署
1.LVS的NAT模式介绍 参考自官网:http://www.linuxvirtualserver.org/zh/lvs3.html 由于IPv4中IP地址空间的日益紧张和安全方面的原因,很多网络使用 ...
- ZOJ 3526 Weekend Party
Weekend Party Time Limit: 2 Seconds Memory Limit: 65536 KB As the only Oni (a kind of fabulous ...
- Intellij IDEA 2017 破解
http://idea.lanyus.com/ https://www.cnblogs.com/wang1024/p/7485758.html
- 倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)人机界面Paintbuffer Overflow怎么办
当在界面上绘制了太多元素时,点击运行会在左上角弹出对话框提示内容容量不够 在英文版的说明中,点击Visualization Manager就可以进行设置 更多教学视频和资料下载,欢迎关注以 ...
- 【C/C++学院】0831-类与对象的异常/面试100题1-100
类与对象的异常 Cpp异常 #include <iostream> #include <string.h> using namespace std; //标识错误的类型 cla ...
- B5:责任链模式 Chain Of Responsibility
使多个对象都有机会处理处理请求,从而避免请求的发送者和接受者之间的耦合关系.将这个对象连成一条链,并沿着该链处理请求,直到有一个对象能够处理它为止. 相当于switch/case,在客户端指定了每一链 ...