php利用simple_html_dom类，获取页面内容，充当爬虫角色

PHP脚本扮演爬虫的角色，可能大家第一时间想到可能会是会正则，个人对正则的规则老是记不住，表示比较难下手，今天工作中有个需求需要爬取某个网站上的一些门店信息

无意间在网上看到一个比较好的类库叫：simple_html_dom

github下载地址：https://github.com/samacs/simple_html_dom

最重要的一步：你得先了解别人网站的结构，知道从哪个tab开始是你想要的数据

下面演示下过程吧

实现过程我分了三步

1、将门店信息的经纬度，名称等一些重要信息先插入本地表

set_time_limit(0);
$host = '127.0.0.1';
$user = 'root';
$user_pwd = '';
$database = 'dataname';
$conn = mysql_connect($host,$user,$user_pwd) or die('sss');
mysql_select_db($database,$conn) or die('dddd');
mysql_query('set names utf8');
include('./simple_html_dom-master/simple_html_dom.php');
$url = '需要爬取的网站URL';
$html = file_get_html($url);
$n = 1;
foreach($html->find('li[data-counts=0]') as $e){
$storeid = $e->storeid;
$star = $e->level.'.0';
$work_time = $e->time;
$mapx = $e->mapx;
$mapy = $e->mapy;
$nickname = $e->mapname;
$mapadd = $e->mapadd;
$maptel = $e->maptel;
$time = date('Y-m-d H:i:s');
$query = "INSERT INTO `store` (`storeid`,`star`,`work_time`,`longitude`,`latitude`,`create_time`,`nickname`,`address`,`tel`)
VALUES ($storeid,'".$star."','".$work_time."','".$mapx."','".$mapy."','".$time."','".$nickname."','".$mapadd."','".$maptel."')";
$res = mysql_query($query);
//echo $query;exit();
if($res){
echo '成功导入第'.$n.'个门店<br>';
$n++;
}else{
die('失败<br>');
}
}

2、跳入站点的另一个页面获取门店LOGO图片

$query = "SELECT storeid FROM store order by id desc";
$row = mysql_query($query);
while($rows = mysql_fetch_array($row)){
$url = 'http://别人站点域名/'.$rows['storeid'].'.jhtml';
$html = file_get_html($url);
foreach($html->find('div.onlyOnePic') as $e){
//获取img的src属性
$img = $e->firstChild()->src;
//将远程图片保存到本地
$content = file_get_contents($img);
file_put_contents('./store/'.$rows['storeid'].'.jpeg', $content);
}
}

3、更新表中对应门店的LOGO字段

$query = "SELECT storeid FROM store order by id desc";
$row = mysql_query($query);
$n = 1;
while($rows = mysql_fetch_array($row)){
$img = "https://我自己站点域名/".$rows['storeid'].".jpeg";
$sql = "UPDATE store set img_url='".$img."' where storeid=".$rows['storeid'];
$res = mysql_query($sql);
if($res){
echo '成功更新第'.$n.'个门店<br>';
$n++;
}else{
echo '失败';
}
}

OK，功能实现了，不过还没有更深入的了解这个类库的其他功能，这里也只是做个记录，方便以后需要的时候用

php利用simple_html_dom类，获取页面内容，充当爬虫角色的更多相关文章

PHP curl获取页面内容，不直接输出到页面，CURLOPT_RETURNTRANSFER参数设置
使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的或true. 1.curl获取页面内容, 直接输出例子: <?php $ ...
PHP CURL获取页面内容输出例子
使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的CURLOPT_RETURNTRANSFER选项为1或true. 1.curl ...
C#获取页面内容的几种方式
常见的Web页面获取页面内容用 WebRequest 或者 HttpWebRequest 来操作 Http 请求. 例如,获取百度网站的 html 页面 var request = WebReques ...
python+selenium 页面中存在选项卡时，获取页面内容的小技巧
最近用selenium读取页面内容时,遇到包含选项卡的页面,由于选项卡多由js加载其中的内容,所以在网址打开时只能获取到默认显示的选项卡中的内容,而tab2.tab3等等都需要傻傻的点击一下才会获取到 ...
利用Retrofit, RxJava获取网络内容
Retrofit & RxJava 关于如何使用Retrofit和RxJava请阅读参考中的两篇文章. Retrofit处理数据 Retrofit是在什么时候处理从网络中获取到的json数据的 ...
python 携带cookie获取页面内容
有时会遇到爬取的页面需要登录,这就要带上cookie了. 下面记录了几种携带cookie的方法 # coding=utf-8 import requests s = requests.Session( ...
POST信息模拟登录获取页面内容
最近项目里有一个是要模拟登录后,访问固定页面获取内容的要求,一开始用JQ AJAX好像不支持跨域请求.后使用.net中HttpWebRequest对象来获取.一开始访问总是无法在第二个页面正常访问,好 ...
android 利用TrafficStats类获取本应用的流量
public void getData() { // PackageManager 包管理类 PackageManager packageManager = BrownserActivity.this ...
asp.net 利用Response.Filter 获取输出内容, 变更输出内容
重写 Response.Filter 就可以获取或更新输出到浏览器的内容资料: https://weblog.west-wind.com/posts/2009/Nov/13/Captur ...

随机推荐

查看Linux磁盘空间
df -hl 查看磁盘剩余空间 df -h 查看每个根路径的分区大小 du -sh [目录名] 返回该目录的大小 du -sm [文件夹] 返回该文件夹总M数 du -h [目录名] 查看指定文件夹下 ...
java.io.EOFException ValueOperations.increment()操作后,获取值时有的bug
---恢复内容开始--- 今天使用spring-data-redis包操作redis,就是简单的使用redis的计数功能,在redis中的操作命令如:incr key;get key; 这两步操作使用 ...
列表：remove/del删除方法中的逻辑“误区”
结果: list_1=["A","B","C","D","E","F",&quo ...
SSM框架的配置
主要是这三个配置文件 web.xml(用来加载和初始化下面的配置文件) applicationcontet.xml(就是Spring的配置文件,一般包括声明式失误等等AOP) Sprimgmvc,xm ...
PythonStudy——内存管理机制 Memory management mechanism
一.变量与对象关系图如下: 1.变量:通过变量指针引用对象变量指针指向具体对象的内存空间,取对象的值. 2.对象:类型已知,每个对象都包含一个头部信息(头部信息:类型标识符和引用计数器) 注意: ...
zombodb 聚合函数
zombodb 暴露基本上所有es 的集合函数为sql 函数,我们可以方便使用比如 count FUNCTION zdb.count( index regclass, query zdbquery) ...
mysql查询中AND与OR注意事项
在查询的where条件中,and要优于or 如果要改变优先级, 需要在最小逻辑判断的条件外加括号(),例如: select * from `table_name` where (`type` = 1 ...
nginx+keeplived+tomcat
1,宣告操作系统版本,nginx,java,tomcat,keeplived版本操作系统用途 VIP IP地址软件版本 CentOS 7.3 mini NTP服务器无 192.168.197. ...
彻底删除msde2008（请先在控制面板中卸载）.bat
彻底删除msde2008(请先在控制面板中卸载).bat @echo offset /P dv=请确认强制删除MSDE2008(请先在控制面板中卸载),Y=删除,N=退出:if not defined ...
【OpenStack】相关概念
网络 network和subnet Service subnets: 创建network,subnet, instances 官方示例 Network components: Switches/ Ro ...

php利用simple_html_dom类，获取页面内容，充当爬虫角色

php利用simple_html_dom类，获取页面内容，充当爬虫角色的更多相关文章

随机推荐

热门专题