首发:个人博客,更新&纠错&回复

演示地址在这里,代码在这里

一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码:

1.python的scrapy爬虫,总体思路是page->model->result,从网页中提取数据,组成有意义的数据结构,再拿这数据结构做点什么。

在这个项目中,爬虫的用处是从游久网dota数据库上抓取dota英雄和物品的数据和照片存到本地磁盘,数据存为json格式,方便在网页应用中直接使用。

2.网页应用,使用dota英雄数据、自己编写的小伙伴们的特征数据、自己编写的契合度计算公式,来计算对每个小伙伴来说最契合他的英雄。

算法主要用到的英雄数据是【英雄标签】和【英雄事务评分】,前者说明了该英雄是近战还是远程,主属性是什么,是否能打辅助、Gank、后期等,后者则是对该英雄在Dps、Gank、Support等方面的能力的打分。

这两个数据都来自网络,抓取到本地之后做了一些调整,例如将原来的“眩晕”“控制”两个标签改为了“小控”“小团控”“团控”三个标签,“后期”标签变为“后期”“大后期”两个标签,增加了“不稳定”“多线”“特殊”等特点, 这让计算出的契合度更准确了一点,当然这也远远不是尽善尽美,例如同样是减速,冰女和暗牧的减速当然不同,但还没做更进一步的细分。

另外,对英雄的标签也进行了一些修改和补充,这个工作也还没做完。

我都是边计算契合度,边发现需要改的地方,改的目的就是使计算出的结果与实际情况相符,但又不是硬去凑这个数字。

说说技术吧

只有爬虫值得一说,网页那部分只是做实验和玩儿的,没太多可说,算法自行参考代码就好。

scrapy爬虫,非常强大,基本的需求都覆盖到了,逻辑流程也已经定义好了,只需要程序员在特定的点编写特定角色组件的定义代码。 这种方式很熟悉,每个框架都是这么玩的,控制流是定义好的,而且在它的手里,只有涉及业务的地方需要程序员给出自己的实现。

这个中文文档还是不错的,跟着其中的教程写helloworld,跑通了之后一点点改你的helloworld,遇到困难的地方就查文档,或者百度一下。

关键类:scrapy爬虫类,item模型类,pipeline处理器类。

爬虫组件从指定的url获取html字符串,并解析dom,从中采集信息,构造item对象

框架将构造好的item对象交给处理器组件,处理器组件根据item对象内容,进行处理

在本例中就是:

爬虫从dota网站抓取html字符串,解析dom获得英雄的名称、图片路径、英雄详细页面url,以及物品的名称、图片路径

爬虫又从英雄详细页面抓取html字符串,解析dom获得英雄的标签和各种数据

每个英雄的名称、图片路径、标签、各种数据构成英雄模型对象

每个物品的名称、图片路径构成物品模型对象

保存图片处理器将英雄图片和物品图片存到本地磁盘,并根据英雄名称、物品名称,进行重命名(重命名之前是无意义的名称)

保存英雄数据处理器将英雄数据存到本地磁盘的一个文本文件中,并组成json格式 7 保存物品数据处理器将物品数据存到本地磁盘的一个文本文件中,并组成json格式

显然前2步是抓取和解析,其后两步是做成模型对象,最后三步是处理模型对象。 顺序非常清楚。

由于我python不熟,都是边写代码边查,基本语法,库的使用,可能有的地方写得比较蠢,请不要在意这些细节。

英雄数据的格式

    {      "blue_add": 1.75, //智力成长(蓝色的是智力……)      "gank": 7.2, //gank能力评分      "speed": 315, //初始速度      "id": "132", //英雄id      "blue": 19, //初始智力      "armor": 7.22, //初始护甲      "excute_after": 0.51, //施法后摇      "support": 5.1, //support能力评分      "green_add": 3.2, //敏捷成长      "attack_after": 0.6, //攻击后摇      "ballistic": 0, //弹道速度      "war": 8.1, //团战能力评分      "red": 15, //初始力量(红色)      "tags": "敏捷,近战,后期,减速",//标签们       "hp": 435, //初始生命      "attack_before": 0.3,//攻击前摇       "attack_max": 54, //初始攻击上限      "name": "恐怖利刃", //英雄名称      "dps": 8.9, //dps能力评分      "meat": 6.0, //肉盾能力评分(meat哈哈)      "attack_min": 48, //初始攻击下限      "red_add": 1.9, //力量成长      "excute_before": 0.5, //施法前摇      "range": 128, //攻击距离      "green": 22, //初始敏捷(绿色)      "mp": 247, //初始魔法      "push": 8.5//push能力评分    }

(英语水平见笑啦)

来个图——

长期欢迎项目合作机会介绍,项目收入10%用于酬谢介绍人。新浪微博:@冷镜,QQ:908789432

dota玩家与英雄契合度的计算器,python语言scrapy爬虫的使用的更多相关文章

  1. 手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料

    之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...

  2. 皮尔森相似度计算举例(R语言)

    整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 因为这里每个数都是等 ...

  3. 余弦相似度及基于python的三种代码实现、与欧氏距离的区别

    1.余弦相似度可用来计算两个向量的相似程度 对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向.两条线段之间形成一个夹角, ...

  4. 基于python语言使用余弦相似性算法进行文本相似度分析

    编写此脚本的目的: 本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨.一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具.通过从纸上谈兵到着手 ...

  5. ArcGIS 字段计算器 Python 坑

    最近要处理个简单数据,一个字段中为文本类型,包含各种描述.要求是包含平方米的数值提取出来,变成数值,如果包含多个,则把各个值累加起来. 比如 字段值为 “非法占用100平方米” 处理后结果为 100 ...

  6. 快速排序原理、复杂度分析及C语言实现

    本文作者华科小涛:@http://www.cnblogs.com/hust-ghtao/,参考<算法导论>,代码借用<剑指offer> 快速排序是一种最坏情况时间复杂度为的排序 ...

  7. 用python语言写一个简单的计算器

    假如我们有这样一个式子: 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2 ...

  8. (二十一)状态模式详解(DOTA版)

    作者:zuoxiaolong8810(左潇龙),转载请注明出处,特别说明:本博文来自博主原博客,为保证新博客中博文的完整性,特复制到此留存,如需转载请注明新博客地址即可. 本次LZ给各位介绍状态模式, ...

  9. TXT四则运算计算器 后日谈

    经过了软件工程第一个个人项目——<<四则运算器>>的开发后,对软件开发有了新的认识.题目中并没有明确说明对小数和负数是否应该提供支持.在第一个项目结束后,第二个项目则是针对上一 ...

随机推荐

  1. JDK的安装!力求简单明了!

    作为一个java语言的开发人员,第一件事就是安装JDK,就像当兵的要有刀枪,学生要有书本纸笔一样!话不多说,配置如下: 1.下载一个JDK安装包,解压到任意目录,我解压的是:C:\Tools\Java ...

  2. 为 UIButton 添加长按事件

    UIButton *aBtn=[UIButtonbuttonWithType:UIButtonTypeCustom]; [aBtn setFrame:CGRectMake(40, 100, 60, 6 ...

  3. :first与:first-child的区别

    说的简单,:first表示单个元素,:fisrt-child表示的多个元素(集合). 如果追求深一点的话, 1.$(:first).css()表示全局或局部全局的第一个,也就是表示单个元素 2.$(: ...

  4. JavaScript基础总结三部曲之一

      JavaScript是一种基于对象的编程语言,基于对象指的是所有的对象已经由浏览器提供好了,用户直接使用就可以了. 另外,JS是嵌入在HTML语法之中的编程语言. PS:虽然是基于对象的语言,但是 ...

  5. 概率dp入门

    概率DP主要用于求解期望.概率等题目. 转移方程有时候比较灵活. 一般求概率是正推,求期望是逆推.通过题目可以体会到这点. poj2096:Collecting Bugs #include <i ...

  6. Could not find class XXX referenced from method XXX.<YYY>

    Since some ADT-Version you have to set which libraries / projects should be exported too. Project-Pr ...

  7. WW多线程和锁

    问题: WorldWind中是双线程的,一直忽略了多线程中数据共享,修改数据会产生问题.可是在WW中并没有看到锁的东西. 还有就是动态释放内存的问题.因为采用D3D的C#封装库不可避免涉及COM对象的 ...

  8. curl命令常见用法汇总 good

    curl是一种命令行工具,作用是发出网络请求,然后得到和提取数据,显示在"标准输出"(stdout)上面. curl是一个强大的命令行工具,它可以通过网络将信息传递给服务器或者从服 ...

  9. python AES 双向对称加密解密

    高级加密标准(Advanced Encryption Standard,AES),在密码学中又称Rijndael加密法,是美国联邦政府采用的一种区块加密标准.这个标准用来替代原先的DES,已经被多方分 ...

  10. Swift游戏实战-跑酷熊猫 12 与平台的碰撞

    这节主要实现熊猫和平台的碰撞,实现熊猫在平台上奔跑 要点 对平台进行物理属性设置 //设置物理体以及中心点 self.physicsBody = SKPhysicsBody(rectangleOfSi ...