php爬虫实践

之前用nodejs的cheerio来做，不过nodejs的异步回掉太恶心了，受不了。

后来发现了php的htmlpagedom库，类似jquery的选择器语法，而且支持中文。

安装 composer install wa72/htmlpagedom

1、读取一个简单的网页，如：

require 'vendor/autoload.php';

use \Wa72\HtmlPageDom\HtmlPageCrawler;

$url = "http://news.cnblogs.com/";

$dom = HtmlPageCrawler::create(file_get_contents($url));

print $dom->text(); //输出内容

2、如何分析，使用jquery选择器语法，可以参考

如提取博客园新闻首页第一页的所有链接，结构如下

$news_list = $dom->filter("#news_list");

$news_entry =$news_list->filter(".news_entry");

$urls = [];

$i = 0;

$url_cnt = $news_entry->count();

//print $url_cnt; 30条，在浏览器里查找“发布于”是30，证明是正确的

while ($i<$url_cnt){

    $urls[] = $news_entry->eq($i)->filter('a')->eq(0)->attr("href");

    ++$i;

}

可能有人疑问，为啥不用foreach

因为$news_entry->children() 返回的是DOMElement，而不是HtmlPageCrawler，不能使用filter，还要继续用HtmlPageCrawler::create()。

3、提取新闻正文

$content = HtmlPageCrawler::create(file_get_contents($url.$urls[0]));

print $content->filter("#news_body")->text();

4、说明

有些网站的内容可能不是utf8的这时就要用iconv转码了

可以写个函数封装一下,$base根url，因为很多情况下链接是相对的。

function httpGet($url, $base = null) {

    if (!$base) {

        $url .= $base;

    }

    $html = file_get_contents($url);

    $encode = mb_detect_encoding($html, "gbk,utf-8");

    if (stripos($encode, "utf") !== false) {

        return HtmlPageCrawler::create($html);

    } else {

        $utf_html = iconv("gbk", "utf-8", $html);

        return HtmlPageCrawler::create($utf_html);

    }

}

如果用html()函数获取html则输出的都是html实体编码，可以用html_entity_decode

另外可以用strip_tags 来去除html里的某些标签。

id是唯一的，而class和标签都不是唯一的，所以获取class和标签，就算只有一个也要用eq(0)还获取

jquery有个has函数判断是否存在某个标签，而HtmlPageCrawler缺少这个，于是手工添加了一个。

在HtmlPageCrawler.php的hasClass函数下面，添加如下代码

    public function has($name) {

        foreach ($this->children() as $node){

             if ($node instanceof \DOMElement) {

                $tagName = $node->tagName;

                if (stripos($tagName, $name) !== false) {

                    return true;

                }

            }

        }

        return false;

    }

php爬虫实践的更多相关文章

爬虫实践——数据存储到Excel中
在进行爬虫实践时,我已经爬取到了我需要的信息,那么最后一个问题就是如何把我所爬到的数据存储到Excel中去,这是我没有学习过的知识. 如何解决这个问题,我选择先百度查找如何解决这个问题. 百度查到的方 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
JAVA爬虫实践（实践一：知乎）
爬虫顺序 1.分析网站网络请求通过浏览器F12开发者工具查看网站的内容获取方式. 2.模拟HTTP请求,获取网页内容. 可以采用HttpClient,利用JAVA HttpClient工具可以模拟H ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
python爬虫实践（一）
最近在学习爬虫,学完后想实践一下,所以现在准备爬取校花网的一部分图片第一步,导入需要的库 from urllib import request #用于处理request请求和获得响应 from ur ...
零python基础--爬虫实践总结
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫主要应对的问题:1.http请求 2.解析html源码 3.应对反爬机制. 觉得爬虫挺有意思的,恰好看到知乎有人分享的一个爬虫 ...
Python 3 Anaconda 下爬虫学习与爬虫实践（1）
环境python 3 anaconda pip 以及各种库 1.requests库的使用主要是如何获得一个网页信息重点是 r=requests.get("https://www.goog ...
基于nightmare的美团美食商家爬虫实践
前言美团商家页分析需要爬取的数据有(这里没有按人数爬)爬虫工具选取pysipderscrapynightmare同步任务js动态加载中断继续爬坑总结示例代码前言上学的时候自己写过一些爬虫代码,比较 ...
C#爬虫实践
忘了什么时候加的,iPad上的人人视频追剧了<我的天才女友>,没事的时候看了下,感觉还不错,进一步了解到原著那不勒斯四部曲,感觉视频进度有些慢,就想找找书看看,一时没找到[PS:购买实体书 ...
爬虫实践--CBA历年比赛数据
闲来无聊,刚好有个朋友来问爬虫的事情,说起来了CBA这两年的比赛数据,做个分析,再来个大数据啥的.来了兴趣,果然搞起来,下面分享一下爬虫的思路. 1.选取数据源这里我并不懂CBA,数据源选的是国内某 ...

随机推荐

用户研究Q&A（1）
近来,不少同事开始认同用户研究的价值,希望通过接触,理解和研究用户来获取提升产品的有效信息.这绝对是件好事,因为我一直抱持的理念是,研究并不是藏在实验室或者握在少部分人手中的稀罕货,更重要是一种理念和 ...
maven 错误处理
如果是方法找不到或者返回参数变了,那么肯定是包被升级了,那么到仓库下把对应的包删掉,然后maven自动下载最新的. 如果是包找不到,或者类找不到,那么把maven ->update maven可 ...
Python 死循环和嵌套循环
何为死循环:在编程中,一个无法靠自身的控制终止的循环被称为死循环. 死循环的使用:死循环并非一无是处,C语言中死循环while true或 while 1 是单片机编程的普遍用法,死循环一直运行等待中 ...
【LeetCode】129. Sum Root to Leaf Numbers (2 solutions)
Sum Root to Leaf Numbers Given a binary tree containing digits from 0-9 only, each root-to-leaf path ...
分享Memcached shell启动停止脚本
注意:要使用这个shell,必须先成功建立memcache环境 1>建立memcached文件和权限 [root@luozhonghua ~]# touch /etc/init.d/memcac ...
cocos2dx 3.x 避免空sprite
由于cocos2dx 3.x中autobatch的,如果场景中含有空sprite(并且还不处于visible==false状态)的话,则会打断流水线(因为空sprite的贴图与其它元素的贴图必定不在同 ...
vmware esxi 过期，激活
首先我们打开vSphere Client,登录esxi主机他会提示你,说你的esxi主机的评估期还剩多长时间我们现在去激活,我们下载esxi的注册机然后点击配置--->已获许可的功能--- ...
【转】使用create_project.py创建cocos2d项目时出错
命令格式:create_project.py -project 项目名字 -package 包名 -language cpp,例如: create_project.py -project HelloC ...
测试使用Word发布博客
Word发布地址:http://www.cnblogs.com/xwgli/services/metablogapi.aspx
CSDN日报20170403 ——《该不该离职？它说了算！》
[程序人生]该不该离职?它说了算! 作者:安晓辉我在加油站工作,月薪扣除五险一金2000多.工作时间长,上班48小时歇息8小时. 今年单位改革把我们都外包出去了,承包人对我各种苛刻要求.有心辞职去干 ...

php爬虫实践

php爬虫实践的更多相关文章

随机推荐

热门专题