PHP抓取网络数据

涉及到的知识点不多

file_get_contents：读取数据；

preg_match_all：正则匹配；

和匹配之后的数据分析。

不同网页所需要抓取的数据是不同的，所以正则表达式自然也不一样，针对抓取之后的数据的分析处理方式也不同。

用新浪的nba新闻为例，地址：http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml

列表页面

详细页面

页面整合

列表页面

第一步，分析这个页面的源码，找到需要匹配的标题的正则

列表页面的代码如下：

<?php

$con = file_get_contents ( "http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml" );

// echo $con;

$preg = '#<a  href="(.*)" target="_blank">(.*)</a></span><span class="c_time">(.*)</span></li>#iUs';

preg_match_all ( $preg, $con, $arr );

// var_dump($arr);

echo '<pre>';

$index=0;

foreach ( $arr[1] as $key => $value ) {

    //var_dump($value);//★这里是一些分析$arr的过程，分析之后可以知道$arr[1]、$arr[2]、$arr[3]分别是链接地址、标题文字内容、新闻日期时间

    //echo $value."<br>";//★

    echo (++$index).'.<a href="'.$value.'">'.$arr[2][$key].'</a><br>';//★注意这里的$arr[2][$key]就是标题内容，而href中的则是链接地址

}

echo '</pre>';

页面分析如图：

详细页面

之后是详细页面，同样随便找一条新闻的页面查看源码，分析新闻的标题以及具体内容的正则匹配：

代码如下：

<?php

//$con = file_get_contents ( "http://sports.sina.com.cn/nba/2013-08-29/12136747450.shtml" );

$con = file_get_contents ( $_GET["url"] );

$preg = '#<h1 id="artibodyTitle">(.*)</h1>#iUs';//标题的正则匹配

$arr= preg($preg, $con);

echo '<pre>';

foreach ($arr[0] as $key=>$value){

    echo $value."<br>";

}

$pregContent="#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end -->#iUs";//内容的正则匹配

$arrContent= preg($pregContent, $con);

foreach ($arrContent[0] as $key=>$value){

    echo $value;

}

echo '</pre>';

function preg($preg, $con) {

    preg_match_all ( $preg, $con, $arr );

    return $arr;

}

页面分析如图：

页面整合

最后一步整理，目的是自己处理之后的列表页直接跳转到对应的处理之后的详细页面，改动只有两个地方：1.列表页面最后echo的链接地址的href值 2 详细页面使用$_GET读取链接参数

最终代码如下：

1.列表页面

<?php

$con = file_get_contents ( "http://roll.sports.sina.com.cn/s_2002-2003NBA_all/index.shtml" );

// echo $con;

$preg = '#<a  href="(.*)" target="_blank">(.*)</a></span><span class="c_time">(.*)</span></li>#iUs';

preg_match_all ( $preg, $con, $arr );

// var_dump($arr);

echo '<pre>';

$index=0;

foreach ( $arr[1] as $key => $value ) {

    //var_dump($value);//★

    //echo $value."<br>";//★

    //echo (++$index).'.<a href="'.$value.'">'.$arr[2][$key].'</a><br>';//★

    echo (++$index).'.<a href=20130829.catchDataInfo.php?url='.$value.'>'.$arr[2][$key].'</a><br>';//★链接到本地的详细页面，并且配置上url参数

}

echo '</pre>';

2.详细页面

<?php

//$con = file_get_contents ( "http://sports.sina.com.cn/nba/2013-08-29/12136747450.shtml" );

$con = file_get_contents ( $_GET["url"] );//读取链接参数

$preg = '#<h1 id="artibodyTitle">(.*)</h1>#iUs';//标题的正则匹配

$arr= preg($preg, $con);

echo '<pre>';

foreach ($arr[0] as $key=>$value){

    echo $value."<br>";

}

$pregContent="#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end -->#iUs";//内容的正则匹配

$arrContent= preg($pregContent, $con);

foreach ($arrContent[0] as $key=>$value){

    echo $value;

}

echo '</pre>';

function preg($preg, $con) {

    preg_match_all ( $preg, $con, $arr );

    return $arr;

}

PHP抓取网络数据的更多相关文章

iOS开发——网络实用技术OC篇&网络爬虫－使用青花瓷抓取网络数据
网络爬虫-使用青花瓷抓取网络数据由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...
iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
用C++实现网络编程---抓取网络数据包的实现方法
一般都熟悉sniffer这个工具,它可以捕捉流经本地网卡的所有数据包.抓取网络数据包进行分析有很多用处,如分析网络是否有网络病毒等异常数据,通信协议的分析(数据链路层协议.IP.UDP.TCP.甚至各 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
PHP几种抓取网络数据的常见方法
//本小节的名称为 fsockopen,curl与file_get_contents,具体是探讨这三种方式进行网络数据输入输出的一些汇总.关于 fsockopen 前面已经谈了不少,下面开始转入其它. ...
linux使用tcpdump抓包工具抓取网络数据包，多示例演示
tcpdump是linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式 tcpdump的参数众多,通过man tcpdump ...
Linux使用tcpdump抓取网络数据包示例
tcpdump是Linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式 tcpdump的参数众多,通过man tcpdump ...

随机推荐

【OpenJudge8464】【序列DP】股票买卖
股票买卖总时间限制: 1000ms 内存限制: 65536kB [描述] 最近越来越多的人都投身股市,阿福也有点心动了.谨记着“股市有风险,入市需谨慎”,阿福决定先来研究一下简化版的股票买卖问题. ...
VS2017安装错误：工作负荷不完整，未能安装包“sqlcmdlnutils,version=15.1.61703.130,chip=x64,language=zh-CN”。
场景:已安装的VS2017维护安装MVC4时出现如下错误: 看问题描述是由于sqlcmdlnutils安装失败影响到其它组件的安装,于是单独下载此安装包进行安装,发现安装一切正常,继续维护VS2017 ...
疑似checkpoint堵塞数据库连接
注:这个说法是不成立的,问题已经解决,但是无法正确的定位到具体什么原因:[20140702]奇怪的应用程序超时背景: 开发通过应用程序的日志发现间歇性的出现,数据库连接超时原因: 只能大概猜测,没 ...
Asp.Net生命周期和Http管道技术
本篇主要介绍一下内容: 1.ASP.NET生命周期 2.Http运行时 3.Http管道技术 a)inetinfo.exe b)asp.net_isapi.dll c)aspnet_wp.exe d) ...
mac 下安装 mysql （蛋疼）
mac先安装mydql步骤 1.首先从官网上下载 mac版本的mysql:我的是mysql-5.7.20-macos10.12-x86_64.dmg 2.正常安装: 3.在系统偏好设置的最底下.1:是 ...
scrapy安装使用教程
1. 安装Python,我用的是Python2.7.11,你喜欢用什么版本,你开心就好,只是后面的软件有些可能需要配套. 2. 安装pip,下载pip-8.1.2.tar.gz (md5, pgp). ...
JavaWeb过滤器验证登录（避免未经登录进入主页）
今天用ssh2写了个简单的系统,发现了一个问题,我这系统必须先登录成功才能进入主页,但我在浏览器里直接输入主页地址,发现也能进入,这个肯定不好,毫无安全性可言,后经查资料发现需要登录过滤器,就试了下, ...
HTML5 Canvas 绘制库存变化折线计算出最高最低库存
<!DOCTYPE html> <html lang="utf-8"> <meta http-equiv="Content-Type&quo ...
FileZilla_Server如何配置
安装采用默认直接安装. 2.下图直接点OK 进入主界面,如下 3.配置账户选择 Edit->USERS 开始创建账户点击ADD 按钮添加账户user1 点OK 后,回到创建账 ...
Asp.Net北大青鸟总结(五)-数据绑定控件
在前面的博客我已经介绍了关于一个特殊控件也是我们经经常使用到的控件gridview的使用实现真假分页.这也是属于绑定控件的一种使用.那么我们接下来来介绍一下数据绑定这门技术吧! 一.数据绑定 ...

PHP抓取网络数据

PHP抓取网络数据的更多相关文章

随机推荐

热门专题