OnlineJudge难度与正确度的相关性检验

　　本着做题的心态，上了东莞理工学院的 oj 网；在选择难度的时候发现有些题目通过率和难度可能存在着某些关系，于是决定爬下这些数据简单查看一下是否存在关系。

一、新建项目

　　我是用 Scrapy 框架爬取的（因为刚学没多久，顺便练练手）。首先，先新建 project （下载 Scarpy 部分已省略），在控制台输入 scrapy startproject onlineJudge（其中， onlineJudge为项目名称），敲击回车键新建项目完成。

二、明确目的

　　在动手写代码之前，先分析一下网页结构。网站是通过动态加载的，数据通过 json 文件加载。

　　1、明确要爬取的目标： http://oj.dgut.edu.cn/problems 网站里的题目，难度，提交量，通过率。在查找 json 的时候发现只有通过数，那么通过率就要自己计算。

　　2、打开 onlineJudge 目录下的 items.py 写下如下代码：

class OnlinejudgeItem(scrapy.Item):

    id = scrapy.Field()                     # 题目编号

    title = scrapy.Field()                  # 标题

    difficulty = scrapy.Field()             # 难度

    submissionNo = scrapy.Field()      　　　# 提交量

    acceptedNo = scrapy.Field()         　　# 正确数

    passingRate = scrapy.Field()           # 正确率

三、制作爬虫

　　1、在当前目录下输入命令：scrapy genspider oj "oj.dgut.edu.cn" （其中 oj 是爬虫的名字，"oj.dgut.edu.cn"算是一个约束，规定一个域名）

　　2、打开 onlineJudge/spiders 下的 ojSpider.py ，增加或修改代码为：

import scrapy

import json

from onlineJudge.items import OnlinejudgeItem

class OjSpider(scrapy.Spider):

    name = 'oj'        # 爬虫的名字

    allowed_domains = ['oj.dgut.edu.cn']　　　　　# 域名范围

    offset = 0

    url = 'http://oj.dgut.edu.cn/api/xproblem/?limit=20&offset='

    start_urls = [url + str(offset)]　　　　　　　# 爬取的URL元祖/列表

    def parse(self, response):

        data = json.loads(response.text)['data']['results']

        if len(data):

            for i in range(len(data)):

                submissionNo = data[i]['submission_number']

                acceptedNo = data[i]['accepted_number']

                try:

                    passingRate = round((int(acceptedNo)/int(submissionNo)) * 100, 2)

                except ZeroDivisionError as e:

                    passingRate = 0

                strPR = str(passingRate) + "%"

                item = OnlinejudgeItem()

                item['id'] = data[i]['_id']

                item['title'] = data[i]['title']

                item['difficulty'] = data[i]['difficulty']

                item['submissionNo'] = submissionNo

                item['acceptedNo'] = acceptedNo

                item['passingRate'] = strPR

                yield item

                print(i)

            self.offset += 20

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

四、存储数据

1、打算将数据存储为 excel 文档，要先安装 openpyxl 模块，通过 pip install openpyxl 下载。

2、下载完成后，在 pipelines.py 中写入如下代码

from openpyxl import Workbook

class OnlinejudgePipeline(object):

    def __init__(self):

        self.wb = Workbook()

        self.ws = self.wb.active                # 激活工作簿

        self.ws.append(['编号', '标题', '难度', '提交量', '正确数', '正确率'])    # 设置表头

    def process_item(self, item, spider):

        line = [item['id'], item['title'], item['difficulty'],

                item['submissionNo'], item['acceptedNo'], item['passingRate']]

        self.ws.append(line)

        self.wb.save('oj.xlsx')

        return item

五、设置 settings.py

修改并增加代码：

LOG_FILE = "oj.log"

ROBOTSTXT_OBEY = True

ITEM_PIPELINES = {

    'onlineJudge.pipelines.OnlinejudgePipeline': 300,

}

六、运行爬虫

　　在当前目录下新建一个 main.py 并写下如下代码

from scrapy import cmdline

cmdline.execute("scrapy crawl oj".split())

　　然后运行 main.py 文件。

　　于是，想要的数据就被爬下来了

七、分析数据

　　分析数据之前，先安装好 numpy，pandas，matplotlib，xlrd。

import pandas as pd

import xlrd

data = pd.read_excel("../onlineJudge/onlineJudge/oj.xlsx")　　# 导入 excel 文件

data.describe()

　　通过观察，数据没有异常值以及确实值，虽然提交量和正确数有为0的部分，但属于正常范围，不做处理。

data = data.set_index('编号')　　# 设置编号为索引
data.head()　　　　　　　　　　　　# 显示前五条信息

from matplotlib import pyplot as plt

import matplotlib.style as psl

%matplotlib inline

psl.use('seaborn-colorblind')    # 设置图表风格

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

　　查看题目各难度的数目：

level_values = data['难度'].values

difficulties = {

    '简单': 0,

    '中等': 0,

    '困难': 0

}

for value in level_values:

    if value == '简单':

        difficulties['简单'] += 1

    elif value == '中等':

        difficulties['中等'] += 1

    else:

        difficulties['困难'] += 1

level = pd.Series(difficulties)

print(level)

level.plot(kind = 'bar', figsize=(6, 7))

plt.grid(axis='y')

　　验证正确率与难度之间是否存在关系：

import numpy as np

relation = data[['难度', '正确率']]

rate_values = relation['正确率'].values

fig, axes = plt.subplots(figsize=(15, 6))

axes.scatter(rate_values, level_values)

plt.grid(axis='x')

plt.xticks(np.arange(0, 1, 0.05))

plt.xlabel('正确率')

plt.ylabel('难度')

　　根据图像显示，题目难度跟正确率存在一定关系，困难的题目正确率相对集中于8%-28%，中等难度的题目比较集中在23%-55%，简单难度的题目正确率主要在40%以上。

OnlineJudge难度与正确度的相关性检验的更多相关文章

python相关性分析与p值检验
## 最近两天的成果 ''' ########################################## # # # 不忘初心砥砺前行. # # 418__yj # ########### ...
使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
假设检验的基本思想: 若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的.如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设. 实质分析: ...
【应用】R--判断类别型属性之间是否有相关性（相互之间是否独立）
检验某学区所有在售房源中,小区与楼栋类别(低层:多层;小高层:高层)是否相关导入数据: > house<- read.table("house_data.txt", ...
Mahout的taste里的几种相似度计算方法
欧几里德相似度(Euclidean Distance) 最初用于计算欧几里德空间中两个点的距离,以两个用户x和y为例子,看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值,yi表示 ...
2017高教杯数学建模B 题分析
B题原文 "拍照赚钱"是移动互联网下的一种自助式服务模式.用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
简单介绍一下R中的几种统计分布及常用模型
统计学上分布有很多,在R中基本都有描述.因能力有限,我们就挑选几个常用的.比较重要的简单介绍一下每种分布的定义,公式,以及在R中的展示. 统计分布每一种分布有四个函数:d――density(密度函数) ...
干货：结合Scikit-learn介绍几种常用的特征选择方法
原文 http://dataunion.org/14072.html 主题特征选择 scikit-learn 作者: Edwin Jarvis 特征选择(排序)对于数据科学家.机器学习从业者来说非 ...
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...

随机推荐

IDEA中通过工具类实现对数据库的增删改查
package com.hu.dao; import com.hu.entity.Student; import java.util.List;import java.util.Map; public ...
spring学习（二）---依赖注入
spring第二个特性是依赖注入. 学习依赖注入,首先应该明白两个问题:1,谁依赖谁:2,谁注入,注入什么? 首先还是看代码: 还是这个bean: package testSpring.busines ...
JavaScript -DOM 编程艺术 2nd 完
今日看完了这本书,做完了最后一个综合性例子.说实话收获良多,终于明白前端-h5 具体做什么越学习越无知,这个看来真是一个真理. 后期计划: 1.CSS + DIV 布局深入了解,重点实战 2.Jav ...
mycat跟踪分析
mycat版本1.6 192.168.5.66 从 192.168.5.67主一个user表验证主从 log4j2修改日志level为debug schema.xml配置启动服务,打开日志tai ...
使用Eclipse的代码追踪功能
在使用Java编写复杂一些的程序时,你会不会常常对一层层的继承关系和一次次方法的调用感到迷惘呢?幸亏我们有了Eclipse这么好的IDE可以帮我们理清头绪--这就要使用Eclipse强大的代码追踪功能 ...
python的无限循环及退出
题目要求如下: 1 循环验证用户输入的用户名与密码 2 认证通过后,运行用户重复执行命令 3 当用户输入命令为quit时,则退出整个程序代码如下 person={'name':'Helen','p ...
产生 unmerge path git
1. Pull is not possible because you have unmerged files. 症状:pull的时候 $ git pull Pull is not possible ...
MySQL--REPLACE INTO与自增
##=====================================================================##测试环境:MySQL版本:MySQL 5.7.19复制 ...
win10 系统下无法正常安装 Anaconda3
最近国庆两天,突然心血来潮重装了一遍系统,重装成了win10系统以后毛病百出哇,昨天和今天一直在解决一个问题,那就是安装Anaconda3的时候出现不了快捷方式,如下图这样只有一个快捷方式(在win7 ...
Base 底层库开源项目总结
在Android开发中,我们经常使用一些开源的项目,一般情况下,这些开源项目都是基于开源的底层库进行的开发,以适配各自的用户场景.下面来列举一下本人收藏或Star的项目: 一.JavaCV 项目地址: ...

OnlineJudge难度与正确度的相关性检验

OnlineJudge难度与正确度的相关性检验的更多相关文章

随机推荐

热门专题