php 爬虫采集

概述

现在爬虫技术算是一个普遍的技术了，各个语言的爬虫百家争鸣，但是根据笔者自己的感觉还是python是主流。爬虫涉及到太多的东西，笔者并不是专业的爬虫工程师，只不过个人兴趣分享一下。由于笔者是php工作，所以就使用php来进行简单爬虫。不过我的方法应该是很通用的，我相信java，C#等肯定有类似的函数，然后做法其实都一样了。

技术准备
看懂这段代码你需要对php的正则表达式函数以及正则表达式有一定的理解。

代码 注意实际代码就这么多

<?php

//这个是你网页正则匹配出来的字符串

$str = '<div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a></h3>
　　　　<div class="info">
　　　　237059 成员
　　　　</div>
　　　　</div>
　　　　<div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a></h3>
　　　　<div class="info">
　　　　237059 成员
　　　　</div>
　　　　</div>';

//这个是正则的输出结果

preg_match_all('/<div class="title">[\s\S]*?<h3>[\s\S]*?<a href="(.*?)"[\s\S]*?>(.*?)<\/a>/',$str,$match);

print_r($match);//根据打印的结果很明白了吧

//这个方法就是抓取网页内容的方法了可以吧需要抓取的页面传进去，然后正则匹配内容哦

function getUrlContent($url){//通过url获取html内容

　　$ch = curl_init();
　　curl_setopt($ch,CURLOPT_URL,$url);
　　curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1 )");
　　curl_setopt($ch,CURLOPT_HEADER,1);
　　curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
　　$output = curl_exec($ch);
　　curl_close($ch);
　　return $output;
}
?>

到这里就可以匹配你想要的数据了，如果还是不懂，就继续往下瞅瞅
流程图

简单的爬虫，特殊字符处理就不进行了，保证插入数据库不出错就行了

思路
首先getUrlContent($url)函数，只需要穿一个url地址就行了，当然了因为各个网站都有反扒机制，不过笔者的这个函数并不是万能的，但是在豆瓣测试过，其他网站大家自行测试了。
任何网站都可以理解为一个很长的字符串，如果对html有研究无非就是:
<html>

　　<head>XXX</head>
　　<body>XXX</body>
</html>
我们需要的只是将body标签里的东西拿出来，笔者模拟了一段body里的代码

<html>
<head>XXX</head>
<body>
<div class="title">
<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a></h3>
<div class="info">
237059 成员
</div>
</div>
<div class="title">
<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a></h3>
<div class="info">
237059 成员
</div>
</div>
</body>
</html>
对于这段代码，可以理解为一个很长的字符串

$str = '<html>
<head>XXX</head>
　 <body>
　　<div class="title">
　　<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a></h3>
　　<div class="info">
　　237059 成员
　　</div>
　　</div>
　　<div class="title">
　　<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a></h3>
　　<div class="info">
　　237059 成员
　　</div>
　　</div>
　　</body>
</html>';

对这段字符串，只需要进行正则匹配拿出你想要的，假如需要a标签里的href与内容

preg_match_all('/<div class="title">[\s\S]*?<h3>[\s\S]*?<a href="(.*?)"[\s\S]*?>(.*?)<\/a>/',
$str,$match);

然后如果你不认识这段正则表达式还有preg_match_all函数，这里笔者就简单说下了，[\s\S]*?代表懒惰匹配任意字符，因为标签之间会用空格符换行符，这里又出现新问题什么叫懒惰匹配，简单来说就是匹配最少的内容。(.*?)代表非空字符，加括号的原因简单来说就是括号里的内容是你想要的，前面的[\s\S]*?匹配到的是一堆特殊符号，并没有什么作用，你不用把特殊符号记录下来，所以不加括号。

最后打印结果，也就是$match数组。

Array
(
[0] => Array
(
　　[0] => <div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a>
　　[1] => <div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a>
)

[1] => Array
(
　　[0] => 链接内容1
　　[1] => 链接内容2
)

[2] => Array
(
　　[0] => 标签内容1
　　[1] => 标签内容2
)

)
根据这个数组，需要什么自己遍历数组，然后拼装sql语句，插入到自己的数据库中即可。但是插入过程中可能会有一些单引号双引号捣乱，所以你用str_replace（）把他们替换掉，或者加转义符号。

总结
只是针对php进行的简单爬虫，不过爬虫的思路我相信很多种语言都用得到。不过很多网站的内容是通过js返回的，或者需要登陆才能获取到数据，这些比较高级的部分，有兴趣的推荐自学python爬虫。

本文转载自https://blog.csdn.net/qq_35370923/article/details/82901220

php 爬虫采集的更多相关文章

python爬虫采集
python爬虫采集最近有个项目需要采集一些网站网页,以前都是用php来做,但现在十分流行用python做采集,研究了一些做一下记录. 采集数据的根本是要获取一个网页的内容,再根据内容筛选出需要的数 ...
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...
基于Python爬虫采集天气网实时信息
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10- ...
抖音爬虫教程，python爬虫采集反爬策略
一.爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
去除爬虫采集到的\xa0、\u3000等字符
\xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000.\u2800.\t等Unicode字符串.单从对\xa0.\t.\u3000等含空白字符的处理来说,有以下 ...
python爬虫采集网站数据
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
python爬虫-采集英语翻译
http://fanyi.baidu.com/?aldtype=85#en/zh/drughttp://fanyi.baidu.com/?aldtype=85#en/zh/cathttp://fa ...
编写python爬虫采集彩票网站数据，将数据写入mongodb数据库
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
Python爬虫——城市公交、地铁站点和线路数据采集
本篇博文为博主原创,转载请注明. 城市公交.地铁数据反映了城市的公共交通,研究该数据可以挖掘城市的交通结构.路网规划.公交选址等.但是,这类数据往往掌握在特定部门中,很难获取.互联网地图上有大量的信息 ...

随机推荐

Shell脚本一键重启
有个程序必须用 kill -9 pid号关闭后,才能重新启动,每次都要手动查找pid号,麻烦容易出错,写个shell脚本就三行很方便,自动查找pid号-关闭程序-重启程序 #!/bin/bas ...
[Linux]LVM扩展卷
LVM LVM是逻辑盘卷管理(Logical Volume Manager)的简称,它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活 ...
大数据运维尖刀班 | 集群_监控_CDH_Docker_K8S_两项目_腾讯云服务器
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课:https://url.cn/5HIqOOr,主要是实战强.含金 ...
Vue之Vuex的使用
重点看懂这张图: 重点记住: 1.Mutation 必须是同步函数,即mutations里只能处理同步操作. 2.如果处理的是同步操作可直接commit提交mutations更改state,如果是异步 ...
Oracle中将列查询结果多行逗号拼接成一个大字段
在11G以下版本中oracle有自带的函数wm_concat可以实现,如: select wm_concat(id) from table where col='1' 但是在12C版本中此函数无法使用 ...
Java高级项目实战03：CRM系统数据库设计
接上一篇:Java高级项目实战02:客户关系管理系统CRM系统模块分析与介绍欢迎点击回顾,接下来我们说说 CRM系统数据库设计. 我们根据产品的原型搞以及UI组的设计稿, 接下来就要设计数据库, 一 ...
JavaScript-装饰器模式
装饰器模式为对象添加新功能不改变其原有的结构和功能传统 UML 类图 javascript 中的装饰器装饰类 @testDec clss Demo { } function testDec(t ...
symfonos2
0x01 进入网页啥也没有 0x02 目录爆破啥也没有 0x03 端口扫描知识盲区: ProFTPD 1.3.5 用ProFTPD服务权限执行复制命令,默认在'nobody'用户的特权下运行.通 ...
Windows server 2012 出现大量无名已断开连接用户清楚办法
打开cmd命令窗口,执行 taskkill /f /im winlogon.exe /t
Python和Anoconda和Pycharm安装教程
简介 Python是一种跨平台的计算机程序设计语言.是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的.大型项目的开发. ...

php 爬虫采集

php 爬虫采集的更多相关文章

随机推荐

热门专题