实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班级 软工三班 专业名称 软件工程 实验组 其他成员 无 实验地点 F110 实验成绩 (教师签名)   实验目的与要求 了解PageRank算法 学会用mapreduce解决实际的复杂计算问题 搭建hadoop分布式集群 编写mapreduce代码 根据输入的网页链接数据,能够得到最终的pagera…
动画是游戏开发中不可或缺的要素,游戏中的角色只有动起来才会拥有“生命”, 但动画处理也是最让游戏开发者头痛的部分.Pygame 包通过不断重新绘制绘图窗口,短短几行代码就可以让图片动起来! 动画处理程序的基本架构 import pygame pygame.init() screen = pygame.display.set_mode((640, 320)) pygame.display.set_caption("动画基本架构") background = pygame.Surface(…
1. 数据库的发展过程 层次模型 -->网状模型 -->关系模型 -->对象关系模型 2. 关于数据库的概念 DB:数据库(存储信息的仓库) DBMS:数据库管理系统(用于管理数据库的工具) RDBMS:关系型数据库管理系统 ORDBMS:对象关系型的数据库管理系统 3. Oracle数据库的主要特点 1)支持多用户.大事务量的处理 2)数据库安全性和完整性控制 3)支持分布式数据处理 4)可移植性 4.Oracle一些常见问题? 1)如果我只有一张表,为什么我还要创建数据库? SQL语…
在 Windows 任务计划程序中,设置每隔 30 分钟自动抓取 PM2.5 数据,井保存 在 SQLite 数据库中 . import sqlite3,ast,requests,os from bs4 import BeautifulSoup #cur_path=os.path.dirname(__file__) # 取得目前路径 #print(cur_path) cur_path = 'F:\\' conn = sqlite3.connect(cur_path +'DataBasePM25.…
实验目的 学习安装Java 学习配置环境变量 学习设置免密码登陆的方法 掌握Linux环境下时间同步的配置 实验原理 1.Java的安装 java是大数据的黄金语言,这和java跨平台的特性是密不可分的,大数据的大部分框架,包括hadoop.hbase.tachyon等,都是用java实现,而spark框架的scala语言,也是基于java的虚拟机的,所以安装java是进行大数据处理的第一步. java的安装很简单,我们采用编译安装的方法安装.找到jdk的安装包,实验安装包在文档末,同学们可以参…
实验目的 了解yum的原理及配置 学习软件的更新与安装 学习源代码编译安装 实验原理 1.编译安装 前面我们讲到了安装软件的方式,因为linux是开放源码的,我们可以直接获得源码,自己编译安装.例如:新建一个hello.c的文件,在里面添加一下内容: #include <stdio.h> int main(void) { printf("Hello World\n"); } 然后,使用"gcc hello.c"编译,生成一个a.out的可执行文件,在输入…
实验目的 学习使用xshell工具连接Linux服务器 在连上的服务器中进入用户目录 熟悉简单的文件操作命令 实验原理 熟悉shell命令是熟悉使用linux环境进行开发的第一步,我们在linux的交互式命令行输入的每一个命令都是一个shell指令,Shell本质是一个用C语言编写的程序,它是用户使用Linux的桥梁.Shell既是一种命令语言,又是一种程序设计语言.Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务. 我们学习shell编程的第一步就…
MySQL 临时表在我们需要保存一些临时数据时是非常有用的.临时表只在当前连接可见,当关闭连接时,Mysql会自动删除表并释放所有空间. MySQL临时表只在当前连接可见,如果使用PHP脚本来创建MySQL临时表,那每当PHP脚本执行完成后,该临时表也会自动销毁. 如果使用了其他MySQL客户端程序连接MySQL数据库服务器来创建临时表,那么只有在关闭客户端程序时才会销毁临时表,当然也可以手动销毁. 使用MySQL 临时表的简单实例,以下的SQL代码可以适用于PHP脚本的mysql_query(…
如果需要修改或更新 MySQL 中的数据,我们可以使用 SQL UPDATE 命令来操作. 语法 以下是 UPDATE 命令修改 MySQL 数据表数据的通用 SQL 语法: UPDATE table_name SET field1=new-value1, field2=new-value2 [WHERE Clause] 可以同时更新一个或多个字段. 可以在 WHERE 子句中指定任何条件. 可以在一个单独表中同时更新数据. 当需要更新数据表中指定行的数据时 WHERE 子句是非常有用的. 通过…
MySQL 表中使用 INSERT INTO SQL语句来插入数据. 可以通过 mysql> 命令提示窗口中向数据表中插入数据,或者通过PHP脚本来插入数据. 以下为向MySQL数据表插入数据通用的 INSERT INTO SQL语法: INSERT INTO table_name ( field1, field2,...fieldN ) VALUES ( value1, value2,...valueN ); 如果数据是字符型,必须使用单引号或者双引号,如:"value". 通…
使用mysql二进制方式连接 您可以使用MySQL二进制方式进入到mysql命令提示符下来连接MySQL数据库. 实例 以下是从命令行中连接mysql服务器的简单实例: [root@host]# mysql -u root -p Enter password:****** 在登录成功后会出现 mysql> 命令提示窗口,你可以在上面执行任何 SQL 语句. 在以上实例中,我们使用了root用户登录到mysql服务器,当然你也可以使用其他mysql用户登录. 如果用户权限足够,任何用户都可以在my…
启动及关闭 MySQL 服务器 Windows 系统下 在 Windows 系统下,打开命令窗口(cmd),进入 MySQL 安装目录的 bin 目录. 启动: cd c:/mysql/bin mysqld --console 关闭: cd c:/mysql/bin mysqladmin -uroot shutdown Linux 系统下 首先,我们需要通过以下命令来检查MySQL服务器是否启动: ps -ef | grep mysqld 如果MySql已经启动,以上命令将输出mysql进程列表…
要想在没有安装 Python 集成环境的电脑上运行开发的 Python 程序,必须把 Python 文件打包成 .exe 格式的可执行 文件. Python 的打包工作 PyInstaller 提供了两种把 .py 文件包 成 .exe 文件的方式: 第一种方式是把由 .py 文件打包而成的 .exe 文件及相 关文件放在一个目录中 . 这种方式是默认方式,称为 onedir 方式. 第二种方式是加上-F 参数后把制作出的 .exe 打包成一 个独立的 .exe 格式的可执行文件 , 称为 on…
游戏开发在软件开发领域占据了非常重要的位直.游 戏开发需要用到的技术相当广泛,除了多媒体.图片.动 画的处理外,程序设计更是游戏开发的核心内容. Py game 是为了让 Python 能够进行游戏开发而发展出 来的包,通过它, Python 可以实现对音效.音乐.图片. 动画的控制,可以说这是一个功能强大而完整的包. Pygame 是专门为游戏开发而推出的 Python 包,它是从 Simple Directmedia Layer CS DL) 延伸而来的. SDL 与 DirectX 类似,…
在多个文本文件中查找 我们首先来学习文本文件的查找字符 . 我们通过 os.walk 扩大查找范围, 查找指定目录和子目录下的文件. 应用程序总览 读取 当 前目录及子目录下的所有 PY 和 txt 文本文件,搜索这些文件中是否包含 指定的字符“ shutil ”. 应用程序内容 import os cur_path=os.path.dirname(__file__) # 取得当前路径 sample_tree=os.walk(cur_path) keyword="shutil" for…
Python 在文件处理方面表现突出,关于文件的处理 也是很多人经常用到的功能. 对 Python 的文件处理的技巧进行综合应用,比如把大量文件 的复制.按指定的文件名进行保存.找出重复的照片.将 所有的图片更改为相同大小等. 除此之外,用户还可以利用 Python 程序来实现文件的 查找功能. 文件管理应用 包括大量文件的 复制.! 根据指定的名称保存文件.找出 重复照片.将所有的图片更改为相同的大小 . 在日常生活中,我们也许还有过这样的体会:经常忘记以前创建的文件的保存 位置,这也可以利用…
用 Selenium 包实现网页自动化操作的案例中,发现很多网页都因 需输入图形验证码而导致实验无法进行 . 解决的办法就是对验证码进行识别 . 识 别的方法之 一 是通过图形处理包将验证码的大部分背景去除,再用 OCR COptical Character Recognition ,光学字符识别)来识别出图片文字 . 不同的图形验证码需要 不同图形处理技术去除背景 简单的 OCR-丁esseract 包 Tesseract 是一个流行的 OCR 链接库,最初是由惠普公司(田)在 1985 年开…
人脸识别登录功能的基本原理是通过对比两张图片的差异度来判断两张图片是 否是同 一人的面部 . 对比图片 差异度 的算法有很多种,本例中使用“颜色直方图” 算法来实现对人脸图像的识别. 下面为比较 imgl 扣g 及 img2.jpg 这两张图片差异度 的程序代码: import math, operator from PIL import Image from functools import reduce picl = Image.open("F:\\pythonBase\\pythonex\…
Open CV 是一个开源.跨平台的计算机视觉库,它可 以在商业和研究领域中免费使用,目前已广泛应用于人机 互动.人脸识别.动作识别.运动跟踪等领域. 要识别特定的图像,最重要的是要有识别对象的特征 文件, Open CV 已内直了人脸识别的特征文件,我们只需 通过 OpenCV 的 CascadeClassifier 类就可以进行人脸识别 的操作 . 图形验证码是很多网站用于阻挡用户的不当或恶意访 问操作而采取的一种技术手段.要破解验证码图片,需要 将验证码图片转换为文字,而 Python 可…
有时候,手工生成 Pandas 的 DataFrame 数据是件非常麻烦的事情,所以我们通 常会先把数据保存在 Excel 或数据库中,然后再把数据导入 Pandas . 另 一种情况是抓 取网页中成千上万的表格数据导入 Pandas ,作为 DataFrame 数据. Pandas 常用的导入数据方法有: 下面,我们示范用 read html 方法抓取网页中的表数据. Pandas 的 read_html 方法会用到 html5lib 套件,可通过命令来安装:pip install html5…
Pandas 通过 drop 函数删除 DataFrarne 数据,语法为: 例如,删除陈聪明(行标题)的成绩: import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文…
import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学", "英文", "自然", &…
用 df.va lue s 读取数据的前提是必须知道学生及科目的位置,非常麻烦 . 而 df.loc 可直接通过行.列标题读取数据,使用起来更为方便 . 使用 df.loc 的语法为: 行标题或列标题若是包含多个项目,则用小括号将项目括起来,项目之间以逗 号分隔,如“( ” 数学 ” , ” 自然 ”) ”:若要包含所有项目,则用冒号“.”表示. 例如读取学生陈聪明的所有成绩: import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93…
读取行数据 读取一个列数据的语法为: 例如,读取所有学生自然科目的成绩 : import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学&qu…
用 Python 进行数据分析处理,其中最炫酷的就属 Pa ndas 套件了 . 比如,如果我 们通过 Requests 及 Beautifulsoup 来抓取网页中的表格数据 , 需要进行较复 杂的搜寻才能抓取 , 但通过 Pandas 不但可以自动读取网页中的表格数据,还能对数 据进行修改.排序等处理,以及给制统计图表 . Pandas 主要的数据类型有两种: Series 是一维数据结构, 其用法与列表类 似: DataFrame 是 二维数据结 构, 表格 即为 DataFrame 的典…
Office 文件是我们日常工作生活中都经常用到的文件格 式,其中以 Word 格式的文件最为常用 . Python 可通过 Win32com 纽件对 Micro so位 Office 文件 进行存取,并且 Python 己内直了 Win32com 纽件,不需要 另外安装. 使用 Win32com 纽件处理 Microsoft Office 文件, 计算机必须己安装 Microso企 Office . 实现新建文件并保存 下面我们导入 Win32com 组件 的 client 模块: 处理 Wo…
会出现这个错误是因为你的chrome浏览器与下载的chromedriver.exe版本不一致造成的. 到这个地址:https://npm.taobao.org/mirrors/chromedriver/79.0.3945.36/下载下图所示的驱动,要注意看自己操作系统来下载 如果是windows系统就选择下载倒数第二个 下载好后,把你的浏览器关闭了,然后把上面下载解压得到的驱动复制到chrome浏览器的安装目录下,如下图所示: 然后把这个安装的路径添加到系统的path路径中,如下图所示: 补充查…
一般情况下,我们都是用手工操作的方式来对浏览器进行各种操作 . 实际上, 只要我们安装一个自动化操作组件, Python 就可以让我们的很多操作实现自动化 . Selenium 组件 在开发网页时,用户接口的测试向来是一件相当不容易的事情,如果用手动方 式进行测试的各种操作,不仅效率低而且容易出错 . Selenium 的出现就是为了解决 这个问题,它可以通过指令实现对网页操作的自动化,从而完成自动测试的功能. 除此之外, Selenium 还可以将许多其他的网页操作实现自动化,井能在指定时间自…
当前,有许多政府或企事业单位会在网上为公众提供相关的公开数据.以 http://api.help.bj.cn/api/均 .cn/api /网站为例,打开这个链接,大家可以看到多种可供调用的数据 . 进入 http://api.help.bj.cn/api/网站,单击“空气质量 API ” . 我们可以看到其中提供的数据格式为 JSON 格式 通过上图所示的接口地址, apis/ aqilist/ . 其中数据结构如下 : 可知保存该数据的 完整链接为 http://api.help.bj.cn…