php利用simple_html_dom类,获取页面内容,充当爬虫角色
PHP脚本扮演爬虫的角色,可能大家第一时间想到可能会是会正则,个人对正则的规则老是记不住,表示比较难下手,今天工作中有个需求需要爬取某个网站上的一些门店信息
无意间在网上看到一个比较好的类库叫:simple_html_dom
github下载地址:https://github.com/samacs/simple_html_dom
最重要的一步:你得先了解别人网站的结构,知道从哪个tab开始是你想要的数据
下面演示下过程吧
实现过程我分了三步
1、将门店信息的经纬度,名称等一些重要信息先插入本地表
- set_time_limit(0);
- $host = '127.0.0.1';
- $user = 'root';
- $user_pwd = '';
- $database = 'dataname';
- $conn = mysql_connect($host,$user,$user_pwd) or die('sss');
- mysql_select_db($database,$conn) or die('dddd');
- mysql_query('set names utf8');
- include('./simple_html_dom-master/simple_html_dom.php');
- $url = '需要爬取的网站URL';
- $html = file_get_html($url);
- $n = 1;
- foreach($html->find('li[data-counts=0]') as $e){
- $storeid = $e->storeid;
- $star = $e->level.'.0';
- $work_time = $e->time;
- $mapx = $e->mapx;
- $mapy = $e->mapy;
- $nickname = $e->mapname;
- $mapadd = $e->mapadd;
- $maptel = $e->maptel;
- $time = date('Y-m-d H:i:s');
- $query = "INSERT INTO `store` (`storeid`,`star`,`work_time`,`longitude`,`latitude`,`create_time`,`nickname`,`address`,`tel`)
- VALUES ($storeid,'".$star."','".$work_time."','".$mapx."','".$mapy."','".$time."','".$nickname."','".$mapadd."','".$maptel."')";
- $res = mysql_query($query);
- //echo $query;exit();
- if($res){
- echo '成功导入第'.$n.'个门店<br>';
- $n++;
- }else{
- die('失败<br>');
- }
- }
2、跳入站点的另一个页面获取门店LOGO图片
- $query = "SELECT storeid FROM store order by id desc";
- $row = mysql_query($query);
- while($rows = mysql_fetch_array($row)){
- $url = 'http://别人站点域名/'.$rows['storeid'].'.jhtml';
- $html = file_get_html($url);
- foreach($html->find('div.onlyOnePic') as $e){
- //获取img的src属性
- $img = $e->firstChild()->src;
- //将远程图片保存到本地
- $content = file_get_contents($img);
- file_put_contents('./store/'.$rows['storeid'].'.jpeg', $content);
- }
- }
3、更新表中对应门店的LOGO字段
- $query = "SELECT storeid FROM store order by id desc";
- $row = mysql_query($query);
- $n = 1;
- while($rows = mysql_fetch_array($row)){
- $img = "https://我自己站点域名/".$rows['storeid'].".jpeg";
- $sql = "UPDATE store set img_url='".$img."' where storeid=".$rows['storeid'];
- $res = mysql_query($sql);
- if($res){
- echo '成功更新第'.$n.'个门店<br>';
- $n++;
- }else{
- echo '失败';
- }
- }
OK,功能实现了,不过还没有更深入的了解这个类库的其他功能,这里也只是做个记录,方便以后需要的时候用
php利用simple_html_dom类,获取页面内容,充当爬虫角色的更多相关文章
- PHP curl获取页面内容,不直接输出到页面,CURLOPT_RETURNTRANSFER参数设置
使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的或true. 1.curl获取页面内容, 直接输出例子: <?php $ ...
- PHP CURL获取页面内容输出例子
使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的CURLOPT_RETURNTRANSFER选项为1或true. 1.curl ...
- C#获取页面内容的几种方式
常见的Web页面获取页面内容用 WebRequest 或者 HttpWebRequest 来操作 Http 请求. 例如,获取百度网站的 html 页面 var request = WebReques ...
- python+selenium 页面中存在选项卡时,获取页面内容的小技巧
最近用selenium读取页面内容时,遇到包含选项卡的页面,由于选项卡多由js加载其中的内容,所以在网址打开时只能获取到默认显示的选项卡中的内容,而tab2.tab3等等都需要傻傻的点击一下才会获取到 ...
- 利用Retrofit, RxJava获取网络内容
Retrofit & RxJava 关于如何使用Retrofit和RxJava请阅读参考中的两篇文章. Retrofit处理数据 Retrofit是在什么时候处理从网络中获取到的json数据的 ...
- python 携带cookie获取页面内容
有时会遇到爬取的页面需要登录,这就要带上cookie了. 下面记录了几种携带cookie的方法 # coding=utf-8 import requests s = requests.Session( ...
- POST信息模拟登录获取页面内容
最近项目里有一个是要模拟登录后,访问固定页面获取内容的要求,一开始用JQ AJAX好像不支持跨域请求.后使用.net中HttpWebRequest对象来获取.一开始访问总是无法在第二个页面正常访问,好 ...
- android 利用TrafficStats类获取本应用的流量
public void getData() { // PackageManager 包管理类 PackageManager packageManager = BrownserActivity.this ...
- asp.net 利用Response.Filter 获取输出内容, 变更输出内容
重写 Response.Filter 就可以获取或更新输出到浏览器的内容 资料: https://weblog.west-wind.com/posts/2009/Nov/13/Captur ...
随机推荐
- C#词频统计 效能分析
在邹老师的效能分析的建议下对上次写过的词频统计的程序进行分析改进. 效能分析:个人很浅显的认为就是程序的运行效率,代码的执行效率 1.VS 提供了自带的分析工具:performance tool (性 ...
- day05 字典
今日内容(dict) 1.基本格式 2.独有方法 3.公共 4.强制转换 1.基本格式 字典(可变类型,3.6之后是有序) 帮助用户去表示一个事物的信息(事物是有多个属性) 键值不能为集合,列表,字典 ...
- Spring boot+Spring Security 4配置整合实例 【转】
http://blog.csdn.net/code__code/article/details/53885510
- java_线程
线程1 与线程相关的概念 线程与进程的区别 线程创建策略 线程组 线程创建策略 并发应用中一般有两种不同的线程创建策略 1直接控制线程 ...
- linux下一些重要命令的了解
linux下一些比较重要的命令: du命令: 查看使用空间: 格式: du [选项][文件] 参数: -a 显示目录中个别文件的大小. -b 显示目录或文件大小时,以byte为单位. -c 除了 ...
- 汉语言处理工具pyhanlp的简繁转换
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合.这里我们不再做过多描述. 说明: ·Ha ...
- 使用Intellij搭建Servlet开发环境
https://blog.csdn.net/yhao2014/article/details/45740111 使用Tomcat 9时,必须使用jre 1.8,否则会出现Unable to ping ...
- LINUX 查看当前系统的内存使用情况 vmstat
Linux vmstat 命令 Vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况. 相比 ...
- python:推导式套路
推导式套路 列表推导式为例的推导式详细格式,同样适用于其他推导式 variable = [out_exp_res for out_exp in input_list if out_exp == 2] ...
- 20165312 2017-2018-2《JAVA程序设计》第7周学习总结
20165312 2017-2018-2<JAVA程序设计>第7周学习总结 一.对上周测试的查漏补缺 总的来说,我觉得上周两个测试都挺难的,做测试也花费了很长的时间,我认为是因为书上的知识 ...