PHP爬虫抓取网页内容 (simple_html

　　使用simple_html_dom.php，下载|文档

　　因为抓取的只是一个网页，所以比较简单，整个网站的下次再研究，可能用Python来做爬虫会好些。

 <meta http-equiv="content-type" content="text/html;charset=utf-8"/>

 <?php

 include_once 'simplehtmldom/simple_html_dom.php';

 //获取html数据转化为对象

 $html = file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');

 //A-Z的字母列表每条数据是在id=letter-focus 的div内class= letter-focus-item的dl标签内，用find方法查找即为 

     foreach($html->find('.txt-list li a') as $element)

     $arr[]= $element->innertext . '<br>';

     $fileName='data.txt';//不用事先建好

     $arrLen=count($arr);

     for($i=0;$i<$arrLen;$i++){

     file_put_contents($fileName,$arr[$i],FILE_APPEND|LOCK_EX);

     /*FILE_APPEND|LOCK_EX是往后追加数据，如果没有该参数，则只能插入一条数据

         但是如果重新启动抓取时，则会将以往抓取过的数据继续存入*/

     }

     //以上是抓取的数据然后存到data.text里

     $content=file_get_contents($fileName);

     $cont=explode("<br>",$content);

     $contLen=count($cont);

     for($i=0;$i<$contLen;$i++) {

         unset($cont[2*$i+1]);

     }

先在 http://www.paopaotv.com/tv-type-id-5-pg-1.html 中找到节点，

 foreach($html->find('.txt-list li a') as $element)

 $arr[]= $element->innertext . '<br>';

获得节点内的数据

获得的数据：

可以看到，每个获取的数据后面都有个<br>***<br>,这时因为 .txt-list li 下面有两个a,所以会得到两个数据

 $content=file_get_contents($fileName);

     $cont=explode("<br>",$content);

     $contLen=count($cont);

     for($i=0;$i<$contLen;$i++) {

         unset($cont[2*$i+1]);

     }

获取data.text中的数据，通过 explode("<br>",$content) 将<br>前后的数据分成两部分，将$cont用print_r()函数打印出来后，得到

可以看出，所有不需要的数据都是奇数项，所以用 unset($cont[2*$i+1]); 函数删掉，显示的时候是：

但是如何将现在的数组的key重新排序，这个我还没不知道怎么弄，试过array_splice,该函数也不能设定只支持删除奇数的内容。

PHP爬虫抓取网页内容 (simple_html_dom.php)的更多相关文章

JAVA使用Gecco爬虫抓取网页内容(附Demo)
JAVA 爬虫工具有挺多的,但是Gecco是一个挺轻量方便的工具. 先上项目结构图. 这是一个 JAVASE的 MAVEN 项目,要添加包依赖,其他就四个文件.log4j.properties 加上三 ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...

随机推荐

mysql引擎整理
MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的.要添加一个新的引擎,就必须重新编译MYSQL.在缺省情况下,MYSQL支持三个引擎:ISAM.MYISAM和HEAP.另外两种类型I ...
鸟哥的linux私房菜---非常好的linux基础网址【转】
转自:http://linux.vbird.org/linux_basic/0320bash.php 在 Linux 的環境下,如果你不懂 bash 是什麼,那麼其他的東西就不用學了!因為前面幾章我們 ...
python sklearn环境配置
os:win10 python2.7 主要参照 1.现下载pip.exe,因为很多安装文件都变成whl格式了,这里要注意下载对应python版本的,要用管理员权限,可以参照https://pypi ...
oracle日期函数2！
1.日期时间间隔操作  当前时间减去7分钟的时间 select sysdate,sysdate - interval '7' MINUTE from dual 当前时间减去7小时的时间 ...
Overview of Flashback Technology
Oracle Flashback Query : SELECT AS OFOracle Flashback Version Query :DBMS_FLASHBACK PackageOracle Fl ...
MySQL对于数据库应该如何如何配置安全问题了
mysql 是完全网络化的跨平台关系型数据库系统,同时是具有客户机/服务器体系结构的分布式数据库管理系统.它具有功能强.使用简便.管理方便.运行速度快.安全可靠性强等优点,用户可利用许多语言编写访问m ...
NSData NSDate NSString NSArray NSDictionary 相互转换
// NSData NSDate NSString NSArray NSDictionary json NSString *string = @"hello word"; NSDa ...
apache支持中文域名绑定,apache支持中文域名绑定,教你怎样让apache支持中文域名绑定
摘要:apache支持中文域名绑定,apache支持中文域名绑定,教你怎样让apache支持中文域名绑定,根据本人实际经验,叫你如何让apache支持中文域名绑定,绝对管用的让apache支持中文域名 ...
C++TSL之map容器（悲伤的故事）
说一个悲伤地故事! 这几天正在加紧时间学STL!昨天刚刚勉强把map弄懂一点点.(故事的前提) 今天,来到平台准备刷有关map的题,老师推荐了一道题目.说是有关map.然后..不会!! 后来,百度.. ...
杭电1013-Digitai Root（另解）
#include<stdio.h>#define maxsize 1000 int main(){ char N[maxsize+1]; int i,j,sum,n; c ...

PHP爬虫抓取网页内容 (simple_html_dom.php)

PHP爬虫抓取网页内容 (simple_html_dom.php)的更多相关文章

随机推荐

热门专题