实验楼的php比赛题，网页数据提取。

题目的地址：https://www.shiyanlou.com/contests/lou5/challenges

以下代码是题目的答案

<?php

header("Content-Type:text/html;charset=utf-8");

class Crawler{

	 private $content;

	 private $data;

	 static private $mysql;

	 public function __construct(){

	 	echo "开始爬取内容....";

	 }

	 public function loadFile($file_path){

	 	echo "正在加载文件";

	 	$this->content = file_get_contents($file_path);

	 }

	 public function parseCourseBody(){

	 	$regex = "/<body[^>]*?>(.*\s*?)<\/body>/is";

	 	if(preg_match_all($regex, $this->content, $matches)){

	 		$this->content = $matches[0];

	 	}

	 }

	 public function parseContent(){

	 	echo "开始解析内容...<br/>";

	 	$this->parseCourseBody();

	 	$this->parseTitle();

	 	$this->parseDesc();

	 	$this->parseType();

	 	$this->titleIsLong();

	 	$this->saveData();

	 	echo "解析内容结束!<br/>";

	 }

	 public function saveData(){

	 	echo "存入数据库...<br/>";

	 	self::$mysql = mysql_connect("localhost","root","root");

	 	mysql_query("set names utf8");

	 	mysql_select_db("databases",self::$mysql);

	 	$cnames = $this->data['cnames'];

	 	$cdescs = $this->data['cdescs'];

	 	$ctypes = $this->data['ctypes'];

	 	$nlongs = $this->data['nlongs'];

	 	foreach ($cnames as $key => $value) {

	 		$sql = "insert into `course_data`(`cname`,`cdesc`,`ctype`,`nlong`) values('".$cnames[$key]."','".$cdescs[$key]."','".$ctypes[$key]."','".$nlongs[$key]."')";

	 		mysql_query($sql);

	 	}

	 	mysql_close();

	 }

	 public function parseTitle(){

	 	echo "解析课程标题...<br/>";

	 	$regex= "/<div class=\"course-name\".*?>.*?<\/div>/ism";

		if(preg_match_all($regex, $this->content, $matches)){

			$cnames = $matches[0];

		}

		foreach ($cnames as &$value) {

			$value = str_replace("</div>","",str_replace("<div class=\"course-name\">", "", $value));

		}

		$this->data['cnames'] = $cnames;

	 }

	 public function parseDesc(){

	 	echo "解析课程简介...<br/>";

	 	$regex4= "/<div class=\"course-desc\".*?>.*?<\/div>/ism";

		if(preg_match_all($regex, $this->content, $matches)){

			$cdescs = $matches[0];

		}

		foreach ($cdescs as &$value) {

			$value = str_replace("</div>","",str_replace("<div class=\"course-desc\">", "", $value));

		}

		$this->data['cdescs'] = $cdescs;

	 }

	 public function parseType(){

	 	echo "解析课程类型...<br/>";

	 	$regex= "/<div class=\"course-footer\".*?>.*?<\/div>/ism";

		if(preg_match_all($regex, $this->content, $matches)){

			$ctypes = $matches[0];

		}

		foreach ($ctypes as &$value) {

			$str = str_replace("</div>","",str_replace("<div class=\"course-footer\">", "", $value));

			if(preg_match_all("/([\x{4e00}-\x{9fa5}])/u", $str, $match)){

				$value = join("",$match[0]);

			}else{

				$value = "免费";

		}

		$this->data['ctypes'] = $ctypes;

	 }

	 public function titleIsLong(){

	 	echo "判断课程名是否超长...<br/>";

	 	$cnames = $this->data['cnames'];

	 	foreach ($cnames as $value) {

	 		$nlongs[] = mb_strlen($value) > 16 : "true" : "false";

	 	}

	 	$this->data['nlongs'] = $nlongs;

	 }

}

$Crawler = new Crawler();

$Crawler->loadFile("test.html");

$Crawler->parseContent();

/**

 表结构

cname(varchar)：完整的课程名

cdesc(varchar)：课程描述

ctype(varchar)：课程类型，值为 免费，会员，训练营。

nlong(enum('true','false'))：课程名是否过长，课程名称超过16字符的时候为 true，否则为 false

create table `course_data`(

	`id` int(11) not null auto_increment,

	`cname` varchar(255) default null,

	`cdesc` varchar(255) default null,

	`ctype` varchar(255) default null,

	`nlong` enum('true','false') default null,

	primary key (`id`)

)engine=InnoDB default charset=utf8;

*/

实验楼的php比赛题，网页数据提取。的更多相关文章

使用 CSS 选择器从网页中提取数据
在 R 中,关于网络爬虫最简单易用的扩展包是 rvest.运行以下代码从 CRAN 上安装:install.packages("rvest")首先,加载包并用 read_html( ...
Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
python爬虫-提取网页数据的三种武器
常用的提取网页数据的工具有三种xpath.css选择器.正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/i ...
转：SQL SERVER数据库中实现快速的数据提取和数据分页
探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...
分享: 利用Readability解决网页正文提取问题
原文:http://www.cnblogs.com/iamzyf/p/3529740.html 做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以 ...
API例子：用Python驱动Firefox采集网页数据
1,引言本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...
使用HtmlAgilityPack批量抓取网页数据
原文:使用HtmlAgilityPack批量抓取网页数据相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息.抓取网页 Htm ...
利用Readability解决网页正文提取问题
分享: 利用Readability解决网页正文提取问题做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以用SS为各种网站写脚本做解析, 但是 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

随机推荐

【BZOJ3291】Alice与能源计划二分图最大匹配
[BZOJ3291]Alice与能源计划 Description 在梦境中,Alice来到了火星.不知为何,转眼间Alice被任命为火星能源部长,并立刻面临着一个严峻的考验. 为了方便,我们可以将火星 ...
EasyPlayerPro windows播放器本地音频播放音量控制实现
背景描述作为一个播放器, 除了能播放视频和声音外,音量控制是绝对不能缺少的功能; 本文在音视频播放的基础上,增加对音量的控制: 实现流程调用mixerGetDevCaps获取音频输出设备列表; 打 ...
通过主机名来获取一个ip对象
//通过名称(ip字符串or主机名)来获取一个ip对象. InetAddress ip = InetAddress.getByName("www.baidu.com");//jav ...
docker 网络模式研究了许久，其实我们需要的是docker run -p 80:80命令
我们只是希望能够从外部访问到docker而已,并不需要去折腾该死的网络模式,桥接,host等等. -p: 端口映射,格式为:主机(宿主)端口:容器端口 sudo docker run -t -i - ...
[IR课程笔记]Web search
一. 搜索引擎组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideratio ...
改善程序与设计的55个具体做法 day1
博客好久没更新了,就从这本读书笔记开始吧. 条款01: 视C++为一个语言联邦 C++可视为有四个次语言组成的: 1.C语言 2.Object-Oriented C++ (面向对象C++) 3.Tem ...
centos下安装nodejs及websocket
软件环境: VMware Workstation CentOS 6.5 NodeJS v0.12.5 安装过程: Step 1.确认服务器有nodejs编译及依赖相关软件,如果没有可通过运行以下命令安 ...
Matlab图像处理(02)-图像基础
数据类 Matlab中和IPT中支持的基本数据类型如下: 名称描述 double 双精度浮点数,范围-10308~10308 8字节 uint8 无符号1字节整数,范围[0, 255] uint1 ...
SqlServer 按逗号分隔
SELECT ORDER_ID,LTRIM(MAX(SYS_CONNECT_BY_PATH(GOODS_NAME, ',')), ',') GOODS_NAME FROM (SELECT GOODS_ ...
迁移博客到Github Pages
由于种种原因,我的博客迁移到了 https://phuker.github.io/ .虽然没有多少人气,但是希望能继续见证一个技术渣的成长.

实验楼的php比赛题，网页数据提取。

实验楼的php比赛题，网页数据提取。的更多相关文章

随机推荐

热门专题