实验楼的php比赛题,网页数据提取。

题目的地址:https://www.shiyanlou.com/contests/lou5/challenges

以下代码是题目的答案

<?php
header("Content-Type:text/html;charset=utf-8");
class Crawler{
private $content;
private $data;
static private $mysql; public function __construct(){
echo "开始爬取内容....";
} public function loadFile($file_path){
echo "正在加载文件";
$this->content = file_get_contents($file_path);
} public function parseCourseBody(){
$regex = "/<body[^>]*?>(.*\s*?)<\/body>/is";
if(preg_match_all($regex, $this->content, $matches)){
$this->content = $matches[0];
}
} public function parseContent(){
echo "开始解析内容...<br/>";
$this->parseCourseBody();
$this->parseTitle();
$this->parseDesc();
$this->parseType();
$this->titleIsLong();
$this->saveData();
echo "解析内容结束!<br/>";
} public function saveData(){
echo "存入数据库...<br/>";
self::$mysql = mysql_connect("localhost","root","root");
mysql_query("set names utf8");
mysql_select_db("databases",self::$mysql);
$cnames = $this->data['cnames'];
$cdescs = $this->data['cdescs'];
$ctypes = $this->data['ctypes'];
$nlongs = $this->data['nlongs'];
foreach ($cnames as $key => $value) {
$sql = "insert into `course_data`(`cname`,`cdesc`,`ctype`,`nlong`) values('".$cnames[$key]."','".$cdescs[$key]."','".$ctypes[$key]."','".$nlongs[$key]."')";
mysql_query($sql);
}
mysql_close();
} public function parseTitle(){
echo "解析课程标题...<br/>";
$regex= "/<div class=\"course-name\".*?>.*?<\/div>/ism";
if(preg_match_all($regex, $this->content, $matches)){
$cnames = $matches[0];
}
foreach ($cnames as &$value) {
$value = str_replace("</div>","",str_replace("<div class=\"course-name\">", "", $value));
}
$this->data['cnames'] = $cnames;
} public function parseDesc(){
echo "解析课程简介...<br/>";
$regex4= "/<div class=\"course-desc\".*?>.*?<\/div>/ism";
if(preg_match_all($regex, $this->content, $matches)){
$cdescs = $matches[0];
}
foreach ($cdescs as &$value) {
$value = str_replace("</div>","",str_replace("<div class=\"course-desc\">", "", $value));
}
$this->data['cdescs'] = $cdescs;
} public function parseType(){
echo "解析课程类型...<br/>";
$regex= "/<div class=\"course-footer\".*?>.*?<\/div>/ism";
if(preg_match_all($regex, $this->content, $matches)){
$ctypes = $matches[0];
}
foreach ($ctypes as &$value) {
$str = str_replace("</div>","",str_replace("<div class=\"course-footer\">", "", $value));
if(preg_match_all("/([\x{4e00}-\x{9fa5}])/u", $str, $match)){
$value = join("",$match[0]);
}else{
$value = "免费";
}
$this->data['ctypes'] = $ctypes;
} public function titleIsLong(){
echo "判断课程名是否超长...<br/>";
$cnames = $this->data['cnames'];
foreach ($cnames as $value) {
$nlongs[] = mb_strlen($value) > 16 : "true" : "false";
}
$this->data['nlongs'] = $nlongs;
}
}
$Crawler = new Crawler();
$Crawler->loadFile("test.html");
$Crawler->parseContent(); /**
表结构
cname(varchar):完整的课程名
cdesc(varchar):课程描述
ctype(varchar):课程类型,值为 免费,会员,训练营。
nlong(enum('true','false')):课程名是否过长,课程名称超过16字符的时候为 true,否则为 false create table `course_data`(
`id` int(11) not null auto_increment,
`cname` varchar(255) default null,
`cdesc` varchar(255) default null,
`ctype` varchar(255) default null,
`nlong` enum('true','false') default null,
primary key (`id`)
)engine=InnoDB default charset=utf8;
*/

  

实验楼的php比赛题,网页数据提取。的更多相关文章

  1. 使用 CSS 选择器从网页中提取数据

    在 R 中,关于网络爬虫最简单易用的扩展包是 rvest.运行以下代码从 CRAN 上安装:install.packages("rvest")首先,加载包并用 read_html( ...

  2. Python【BeautifulSoup解析和提取网页数据】

    [解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子 在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...

  3. python爬虫-提取网页数据的三种武器

    常用的提取网页数据的工具有三种xpath.css选择器.正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/i ...

  4. 转:SQL SERVER数据库中实现快速的数据提取和数据分页

    探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...

  5. 分享: 利用Readability解决网页正文提取问题

    原文:http://www.cnblogs.com/iamzyf/p/3529740.html 做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以 ...

  6. API例子:用Python驱动Firefox采集网页数据

    1,引言 本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...

  7. 使用HtmlAgilityPack批量抓取网页数据

    原文:使用HtmlAgilityPack批量抓取网页数据 相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息.抓取网页  Htm ...

  8. 利用Readability解决网页正文提取问题

    分享: 利用Readability解决网页正文提取问题   做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以用SS为各种网站写脚本做解析, 但是 ...

  9. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

随机推荐

  1. css position 几种定位

    绝对定位:position:absolute 绝对定位使元素的位置与文档流无关,因此不占据空间. 绝对定位的元素的位置相对于最近的已定位祖先元素(absoulte.relative),如果元素没有已定 ...

  2. apache功能优化

    隐藏Apache版本等敏感信息 $ grep Server /usr/local/httpd/conf/extra/httpd-default.conf|grep -v "#" 修 ...

  3. wxPython的Refresh与事件双重响应

    #!/usr/bin/env python import wx class DoubleEventFrame(wx.Frame): def __init__(self, parent, id): wx ...

  4. SpringBoot学习笔记(10):使用MongoDB来访问数据

    SpringBoot学习笔记(10):使用MongoDB来访问数据 快速开始 本指南将引导您完成使用Spring Data MongoDB构建应用程序的过程,该应用程序将数据存储在MongoDB(基于 ...

  5. Android RelativeLayout相对布局

    RelativeLayout是相对布局控件:以控件之间相对位置或相对父容器位置进行排列. 相对布局常用属性: 子类控件相对子类控件:值是另外一个控件的id android:layout_above-- ...

  6. 【转】Unicode(UTF-8, UTF-16)令人混淆的概念

    参考地址:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html Java中,char类型用UTF-16编码描述一个代码单元 为啥 ...

  7. BZOJ 4523 [Cqoi2016]路由表 Trie树

    Trie树的应用题目. 在线建立一棵01 Trie树,然后按照要求用询问在上面跑,用单调栈维护答案即可. #include<iostream> #include<cstdio> ...

  8. CodeForces - 552E Vanya and Brackets —— 加与乘运算的组合

    题目链接:https://vjudge.net/contest/224393#problem/E Vanya is doing his maths homework. He has an expres ...

  9. 51nod 40分算法题

    1737:见前2篇随笔. 1677:题意:给定一个n节点树,一个整数k,n个节点任意选k个出来,对于每一种选择方案,ans累加上使这k个点联通的最小边数,输出ans%1e9+7. 一句话题解:考虑每一 ...

  10. iOS数据持久化存储之属性列表

    属性列表(plist) iOS提供了一种plist格式的文件(属性列表)用于存储轻量级的数据,属性列表是一种XML格式的文件,拓展名为plist.如果对象是NSString.NSDictionary. ...