由于博主的个人网站(:http://www.johnnyzen.cn/),每学期都需要更新呈现课程的静态信息,由于课程量多,而且手动爬取很冗杂,特别想自动化实现。这不,今天终于有点时间了,把之前写nodejs的爬虫的思路转移到前端js上,同时更新了抓取数据的算法,比起之前的来说,自然是更加灵活高效了。

声明:如读者需引用,必须在文章显著处声明或者与博主取得联系,以示尊重劳动成果,非常感谢 0.0

var Course = function(seletorForTds){
var tds = [];
var courseUnitCount = 0; //将dom对象数组转换为text文本数组
//TextnumFilter [以设置判断是否是课程的td格子的字符串长度作为特征判断值,如果没有达到此长度则会被删除 | 20]
var tdsToTextArray = function($tds,TextnumFilter){
if($tds == undefined)
throw new Error("$tds is not defined!"); if(TextnumFilter == undefined)
TextnumFilter = 20; var array = [];
for(var i = 0; i < $tds.length; i++){
if($tds[i].innerText.replace(/\s*/g,"").length > TextnumFilter){
array.push($tds[i].innerText.replace(/\s*/g,"").replace(/(<fontcolor=\"red\">(.[^font]*)<\/font>)*/g,""));
}
}
return array;
}; // (UTF-8)汉字转换为英文数字
var chineseToEnglishNumber = function(chiNum){
if(chiNum == undefined) throw new Error("$ don't load html!");
switch(chiNum){
case "零":return 0;break;
case "一":return 1;break;
case "二":return 2;break;
case "三":return 3;break;
case "四":return 4;break;
case "五":return 5;break;
case "六":return 6;break;
case "七":return 7;break;
case "八":return 8;break;
case "九":return 9;break;
}
} //从td中生成课程单元数组(但仍未被解析,属于课程单元的原始信息数组)
function generateCelltoCourseRawUnits(cell){
var cellItems = cell.innerText.split("\n");//以换行符为标志分割
// console.log('[generateCelltoCourseRawUnits] cellItems:', cellItems);
// console.log('[generateCelltoCourseRawUnits] cellItems[0]:', cellItems[0]);
var courses = [];
var previousStopFlag = false; //是否上一个数组元素也是停用标志元素:(调、(换、""等
var count = 0;//记录原始课程单元的元素的长度(4 or 6 等)
for(var i = 0, length = cellItems.length; i < length; i++){
// console.log('cellItems[' + i + '].indexOf("(换"): ', cellItems[i].indexOf("(换"));
// console.log('cellItems[' + i + '].indexOf("(调"): ', cellItems[i].indexOf("(调"));
// console.log('cellItems[' + i + ']: ', cellItems[i]); //假如当前元素是最后一个元素时
if(i == length-1){
if((cellItems[i].indexOf("(换") != -1) || (cellItems[i].indexOf("(调") != -1) || (cellItems[i] === "")){//如果当前元素为停用标志元素时
count++;
courses.push(cellItems.slice(i - count + 1, i));
// console.log('【1】cellItems.slice(' + i + ' - ' + count + ' + 1, ' + i + '):', cellItems.slice(i - count + 1, i));
}else if(previousStopFlag == false){//如果当前元素为非停用标志元素,且上一个元素非停用标志元素时
count++;
courses.push(cellItems.slice(i - count + 1, i + 1));
// console.log('【2】cellItems.slice(' + i + ' - ' + count + ' + 1, ' + i + '):', cellItems.slice(i - count + 1, i + 1));
}
} //如果当前元素是停用标志元素时
if( (cellItems[i].indexOf("(换") != -1) || (cellItems[i].indexOf("(调") != -1) || (cellItems[i] === "")){
if(previousStopFlag == false && (i != length-1)){//如果上一门课程未被填充且非最后一个元素时(即 上一个元素非停用标志元素且非最后一个元素时,push当前的course)
// console.log('push raw course:count:', count);
courses.push(cellItems.slice(i - count, i));
// console.log('【3】cellItems.slice(' + i + ' - ' + count + ', ' + i + '):', cellItems.slice(i - count, i)); } else {//上一个元素为停用标志元素时 } count = 0;
// console.log("count " + count + " 【" + i + "】" + cellItems[i] + ' test 3');
previousStopFlag = true;//表示已经将上一门课程是停用标志元素 } else {//如果当前元素不是停用标志元素
if( (previousStopFlag == true) || (i == 0)) { //如果上一个元素是停用标志元素或者当前元素属于第一个元素,则说明当前元素已经属于一门新的课程信息的单元对象的课程名了,需要创建一个新的课程单元数组 } else { //如果上一个元素不是停用标志元素且非首元素,则说明当前元素已经属于正在填充的课程单元 }
// if(i != length-1){
count++;
// console.log("count " + count + " 【" + i + "】" + cellItems[i] + ' test 1');
previousStopFlag = false;
// }
}
}
// console.log('courses:', courses);
return courses;
} //根据原始的课程单元生成课程对象
var generateCourses = function(CourseRawUnits,courses){
for(var i = 0,CourseUnitSize = CourseRawUnits.length; i < CourseUnitSize; i++){
switch(CourseRawUnits[i].length) {//根据课程单元的元素长度解析成对应课程对象
case 4:
case 6:{
var course = {}; course.name = CourseRawUnits[i][0];
course.week_index =chineseToEnglishNumber( CourseRawUnits[i][1].charAt( CourseRawUnits[i][1].search(/周[一二三四五六七]/gi) + 1 )); try {
var patCourse_index = new RegExp("第\\d*[,\\d*]*节","gi"); // console.log('test CourseRawUnits[i][1]:', CourseRawUnits[i][1]);
course.course_index = patCourse_index.exec(CourseRawUnits[i][1])[0].replace("第","").replace("节","").split(",").map(function(ele,index,array){
return parseInt(ele);
})
// console.log('course.course_index:', course.course_index );
} catch(error){
console.log('[generateCourses] error.message:', error.message); } var patWeeks = new RegExp("第\\d*[-]*[\\d*]*周","gi");
// var course_indexArray = pat.exec(CourseRawUnits[i][1])[0].split("-");
var course_Weeks = patWeeks.exec(CourseRawUnits[i][1])[0].replace("第","").replace("周","").split("-").map(function(ele,index,array){
return parseInt(ele);
}) // console.log('test course_Weeks:', course_Weeks); course.week_start = course_Weeks[0];
course.week_end = course_Weeks[1]; course.teacher = CourseRawUnits[i][2];
course.location = CourseRawUnits[i][3]; courses.push(course);
break;
}
case 0:
break;
}
}
return courses;
} //清除无关dom节点
var ArraysClearEmptyItem = function(array,condition){
if(tds == undefined)
throw new Error("tds is not defined!");
// console.log('ArrayClearEmptyItem array', array); var newArray = [];
for(var i = 0; i < array.length; i++){
// console.log('[ArrayClearEmptyItem] array[i].innerText:', array[i].innerText);
if(array[i].innerText.length > 20 && array[i].innerText != "&nbsp;"){
newArray.push(array[i]);
// console.log('push:', array[i]);
}
}
return newArray;
}; // [ArrayClearEmptyItem 清除数组内为空字串""的元素]
var ArrayClearEmptyItem = function(array,condition){
if(tds == undefined) throw new Error("tds is not defined!"); var newArray = [];
for(var i = 0;i < array.length;i++){
if(array[i].length > 1){
newArray.push(array[i]);
// console.log('push:',array[i]);
}
}
return newArray;
} var tdsItemsToCourses = function($tds){ //$tds.length
if($tds == undefined)
throw new Error("$tds is not defined!"); $tds = ArraysClearEmptyItem($tds);//清除数组内空字串""的元素 var courses = [];
for(var j = 0; j < $tds.length; j++){
courses = generateCourses(generateCelltoCourseRawUnits($tds[j]), courses);
}
return courses;
}; this.load = function(){
tds = document.querySelectorAll(seletorForTds); // console.log('tds:', tds);
tdsToTextArray(tds, 20);
var courses = tdsItemsToCourses(tds); // console.log('courses: ', courses);
// window.courses = courses;
// console.log("课表课程解析:\n",JSON.stringify(courses)); return courses;
}
} var Student = function(seletorOption){
var that = this;
that.load = function(){
return {
sno : document.querySelectorAll(seletorOption.sno)[0].innerText.trim().replace(/学号:/gi, ""),
sname : document.querySelectorAll(seletorOption.sname)[0].innerText.trim().replace(/姓名:/gi, ""),
college : document.querySelectorAll(seletorOption.college)[0].innerText.trim().replace(/学院:/gi, ""),
profession : document.querySelectorAll(seletorOption.profession)[0].innerText.trim().replace(/专业:/gi, ""),
clazz : document.querySelectorAll(seletorOption.clazz)[0].innerText.trim().replace(/行政班:/gi, ""),
courses: (new Course(seletorOption.courseTable)).load()
}
};
that.stringify = function(){
return JSON.stringify(that.load());
}
} //demo
var seletorOption = {
sno:"#Label5",
sname:"#Label6",
college:"#Label7",
profession:"#Label8",
clazz:"#Label9",
courseTable:"#Table1 td"
};
var student = (new Student(seletorOption));

JavaScript之从浏览器一键获取教务处个人课程信息【插件】的更多相关文章

  1. js 如何在浏览器中获取当前位置的经纬度

    这个有一定的误差哈,具体的误差是多少,有兴趣的朋友可以去测试下 直接上代码 index.html页面代码: <html> <head lang="en"> ...

  2. 6、JavaScript进阶篇③——浏览器对象、Dom对象

    一.浏览器对象 1. window对象 window对象是BOM的核心,window对象指当前的浏览器窗口. window对象方法: 注意:在JavaScript基础篇中,已讲解了部分属性,windo ...

  3. 用Javascript编写Chrome浏览器插件

    原文:http://homepage.yesky.com/62/11206062.shtml 用Javascript编写Chrome浏览器插件 2010-04-12 07:30 来源:天极网软件频道 ...

  4. Javascript进阶篇——浏览器对象—Location、Navigator、userAgent、screen对象

    Location对象location用于获取或设置窗体的URL,并且可以用于解析URL.语法: location.[属性|方法] location对象属性图示: location 对象属性: loca ...

  5. 通过JavaScript判断当前浏览器版本

    从别人处拷贝,只用于自己学习之用.参考源自:http://www.cnblogs.com/leadzen/archive/2008/09/06/1285764.html JavaScript是前端开发 ...

  6. 第一百一十一节,JavaScript,BOM浏览器对象模型

    JavaScript,BOM浏览器对象模型 学习要点: 1.window对象 2.location对象 3.history对象 BOM也叫浏览器对象模型,它提供了很多对象,用于访问浏览器的功能.BOM ...

  7. 微信跳转,手机WAP浏览器一键超级跳转微信指定页面

    微信跳转,手机WAP浏览器一键超级跳转微信指定页面 这篇文章主要介绍了如何在手机浏览器wap网页中点击链接跳转到微信界面,需要的朋友可以参考下 先说第一种,最简单的唤起微信协议,weixin://主流 ...

  8. 原生JavaScript支持6种方式获取元素

    一.原生JavaScript支持6种方式获取元素 document.getElementById('id'); document.getElementsByName('name'); document ...

  9. JavaScript和微信小程序获取IP地址的方法

    最近公司新加了一个需求,根据用户登录的IP地址判断是否重复登录,重复登录就进行逼退,那么怎么获取到浏览器的IP地址呢?最后发现搜狐提供了一个JS接口,可以通过它获取到客户端的IP. 接口地址如下: h ...

随机推荐

  1. springMVC 使用WebApplicationContext获取ApplicationContext对象

    主要用于从application中获取bean 1.applicationContext 在web.xml中使用listener配置 <context-param> <param-n ...

  2. LODOP弹出对话框获取保存文件的路径

    通常一般不会让用户自己在文本框里填上路径,因为路径要输入字母字符等比较麻烦,而且用户硬盘里文件很多,也不知道要保存在哪里,LODOP可以弹出一个选择保存路径的弹窗,然后把返回选择的路径值.这样用户就可 ...

  3. VMware vCenter 6.0 安装及群集配置介绍

    一.介绍 VMware vCenter Server 提供了一个可伸缩.可扩展的平台,为虚拟化管理奠定了基础.可集中管理VMware vSphere环境,与其他管理平台相比,极大地提高了 IT 管理员 ...

  4. hdu 6394 Tree (2018 Multi-University Training Contest 7 1009) (树分块+倍增)

    链接: http://acm.hdu.edu.cn/showproblem.php?pid=6394 思路:用dfs序处理下树,在用分块,我们只需要维护当前这个点要跳出这个块需要的步数和他跳出这个块去 ...

  5. python的多线程到底有没有用?

    在群里经常听到这样的争执,有人是虚心请教问题,有人就大放厥词因为这个说python辣鸡.而争论的核心无非就是,python的多线程在同一时刻只会有一条线程跑在CPU里面,其他线程都在睡觉.这是真的吗? ...

  6. UOJ #314. 【NOI2017】整数 | 线段树 压位

    题目链接 UOJ 134 题解 可爱的电音之王松松松出的题--好妙啊. 首先想一个朴素的做法! 把当前的整数的二进制当作01序列用线段树维护一下(序列的第i位就是整数中位权为\(2^k\)的那一位). ...

  7. [CF791D]Bear and Tree Jumps

    题目描述 A tree is an undirected connected graph without cycles. The distance between two vertices is th ...

  8. tf 常用函数 28原则

    一个tensorflow图由以下几部分组成: 占位符变量(Placeholder)用来改变图的输入. 模型变量(Model)将会被优化,使得模型表现得更好. 模型本质上就是一些数学函数,它根据Plac ...

  9. [HAOI2015]按位或(min-max容斥,FWT,FMT)

    题目链接:洛谷 题目大意:给定正整数 $n$.一开始有一个数字 $0$,然后每一秒,都有 $p_i$ 的概率获得 $i$ 这个数 $(0\le i< 2^n)$.一秒恰好会获得一个数.每获得一个 ...

  10. 使用C#实现实体类和XML相互转换

    一.实体类转换成XML 将实体类转换成XML需要使用XmlSerializer类的Serialize方法,将实体类序列化 public static string XmlSerialize<T& ...