PHP 爬取网页中表格数据

 　　　　　　 public function spider_j($page)

            {

                $url="http://aaa/bbb".$page."_0/"; 

                $fcontents=file_get_contents($url);  

                $table_data = preg_match_all('#<table>(.*?)</table>#si',$fcontents,$match);

                $table_data = $match[0][0];

                $table_array = explode('<tr>',$table_data);

                $data = array();

                for($i=2;$i<count($table_array);$i++){

                    $data[$i] = explode('</td>',$table_array[$i]);

                    for($j = 0;$j<count($data[$i]);$j++){

                        $data[$i][$j] = preg_replace('/\s(?=\s)/','',trim(strip_tags($data[$i][$j])));

                    }

                    $data[$i][6] = date('Y-m-d');

                }

                $kname = array('ID', 'GAMENAME', 'GATEGORY','BETA', 'DATA', 'DOWNLOAD','THEDATE');

                foreach($data as $key=>&$val){

                    $val = array_combine($kname,$val);

                } 

                for($i=2;$i<(count($data)+2);$i++){

                    $this->db06->insert('TBL_J',$data[$i]);

                }       

            }

        　　 public function spider()

            {

                for($i=1;$i<11;$i++){

                    $this->spider_j($i);

                }

            }

逻辑:把网页代码读到字符串中，通过正则表达式筛选出指定的数据，然后变成二维数组，插入到数据库里。

PHP 爬取网页中表格数据的更多相关文章

使用pandas中的raad_html函数爬取TOP500超级计算机表格数据并保存到csv文件和mysql数据库中
参考链接:https://www.makcyun.top/web_scraping_withpython2.html #!/usr/bin/env python # -*- coding: utf-8 ...
一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
C# 爬取网页上的数据
最近工作中需求定时爬取不同城市每天的温度.其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程..NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebReque ...
简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据
文章目录一.简介二.原理三.爬取实战实例1 实例2 一.简介一般的爬虫套路无非是发送请求.获取响应.解析网页.提取数据.保存数据等步骤.构造请求主要用到requests库,定位提取数据用的比 ...
Python 爬取网页中JavaScript动态添加的内容（一）
当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息.但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据.此时,如果我们仍采用常规方法 ...
python3下scrapy爬虫(第八卷:循环爬取网页多页数据）
之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律,现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里(因为刚才写 ...
pands模块的妙用爬取网页中的表格
拿我这篇为例https://www.cnblogs.com/pythonywy/p/11574340.html import pandas as pd df = pd.read_html('https ...
Python 爬取网页中JavaScript动态添加的内容（二）
使用 selenium + phantomjs 实现 1.准备环境 selenium(一个用于web应用程测试的工具)安装:pip install seleniumphantomjs(是一种无界面的浏 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

随机推荐

cookie多次点赞效果
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...
shell脚本中的几个括号总结(小括号/大括号/花括号)--from:http://www.cnblogs.com/hanyan225/archive/2011/10/06/2199652.html
在Shell中的小括号,大括号结构和有括号的变量,命令的用法如下: 1.${var}2.$(cmd)3.()和{}4.${var:-string},${var:+string},${var:=stri ...
解析Hibernate中的持久化—ORM(转载)
最近一直在学习Hibernate,首先说一下Hibernate出现的原因吧,Hibernate是因为MVC的分层体系结构的出现,即数据持久层(模型层)的出现,持久层是在MVC三层架构的基础上提出来的, ...
Install Atom editor in ubuntu 14.04
Step 1: Add repository sudo add-apt-repository ppa:webupd8team/atom Step 2: Update the repository su ...
Java 设计模式之代理模式
1. 定义:为其它对象提供一种代理以控制对这个对象的访问.在某些情况下,一个对象不适合或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用. 2. 类图:代理对象和被代理 ...
EXE加锁器只是思路
代码有点乱但是我不想整理 // AddBoxDlg.cpp : 实现文件 // #include "stdafx.h" #include "AddBox.h" ...
UVA 11297 线段树套线段树(二维线段树)
题目大意: 就是在二维的空间内进行单个的修改,或者进行整块矩形区域的最大最小值查询二维线段树树,要注意的是第一维上不是叶子形成的第二维线段树和叶子形成的第二维线段树要不同的处理方式,非叶子形成的 ...
(转)客户端触发Asp.net中服务端控件事件
第一章. Asp.net中服务端控件事件是如何触发的 Asp.net 中在客户端触发服务端事件分为两种情况: 一. WebControls中的Button 和HtmlControls中的Type为su ...
java 读取properties文件
import java.io.IOException; import java.io.InputStream; import java.util.Properties; public class Ge ...
EF升级6.0数据库链接不上问题
昨天搞了个mvc4 先从net4.0 升级4.5后数据库连接不上了, 然后升级ef未最新的6.1 居然还报错不到方法:“System.Data.Objects.ObjectContext S ...

PHP 爬取网页中表格数据

PHP 爬取网页中表格数据的更多相关文章

随机推荐

热门专题