# -*- coding: utf-8 -*- from kashgari.corpus import DataReader import re from tqdm import tqdm def cut_text(text, lenth): textArr = re.findall('.{' + str(lenth) + '}', text) textArr.append(text[(len(textArr) * lenth):]) return textArr def clean_data(…
上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分系统. 六.模型分析 证据权重(Weight of Evidence,WOE)转换可以将Logistic回归模型转变为标准评分卡格式.引入WOE转换的目的并不是为了提高模型质量,只是一些变量不应该被纳入模型,这或者是因为它们不能增加模型值,或者是因为与其模型相关系数有关的误差较大,其实建立标准信用评…
  在文章NLP(十五)让模型来告诉你文本中的时间中,我们已经学会了如何利用kashgari模块来完成序列标注模型的训练与预测,在本文中,我们将会了解如何tensorflow-serving来部署模型.   在kashgari的官方文档中,已经有如何利用tensorflow-serving来部署模型的说明了,网址为:https://kashgari.bmio.net/advance-use/tensorflow-serving/ .   下面,本文将介绍tensorflow-serving以及如…
1 编写第一个静态页面——Hello world页面 在上一篇博客<[Python] 利用Django进行Web开发系列(一)>中,我们创建了自己的目录mysite. Step1:创建视图文件 在编写第一个页面之前,我们首先要在mysite目录下创建一个名称为views.py的文件.当然,命名是没有要求的,你也可以命名为a.py,b.py... ... 根据自己的喜好命名就行.在已创建好的views.py中写入如下代码,并保存: from django.http import HttpResp…
python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie) 主要包括两部分内容:(1)利用python中的dict实现Trie:(2)按照darts-java的方法做python的实现Double-array Trie 比较:(1)的实现相对简单,但在词典较大时,时间复杂度较高(2)Double-array Trie是Trie高效实现,时间复杂度达到O(n),但是实现相对较难 最近遇到一个问题,希望对地名检索时,根据用户的输入,实…
写在前面: 上周微调一个文本检测模型seglink,将特征提取层进行冻结,只训练分类回归层,然而查看tensorboard发现里面有histogram显示模型各个参数分布,看了目前这个训练模型参数分布压根就看不懂,很想知道我的预训练模型的参数分布是怎么个情况,训练了一天了,模型的参数分布较预训练的模型参数有啥变化没有,怎么办呢? 利用tf.summary将模型参数分布在tensorboard可视化: 导入需要的库  设置模型文件夹路径 import TensorFlow as tf from t…
python利用or在列表解析中调用多个函数.py """ python利用or在列表解析中调用多个函数.py 2016年3月15日 05:08:42 codegay """ '''有时候我会在列表解析中write文件, 或者调用print显示输出,不是为了收集结果, 而是因为能省代码行数''' #代码例子1 with open("a.txt","w+") as f: [print(str(r)) for…
python 利用 ogr 写入 shp 文件, 定义shp文件中的属性字段(field)的数据格式为: OFTInteger # 整型 OFTIntegerList # 整型list OFTReal # 双精度 OFTRealList # 双精度list OFTString # 字符 OFTStringList # 字符list OFTWideString # 长字符 OFTWideStringList # 长字符list OFTBinary OFTDate OFTTime OFTDateTi…
Python利用pandas处理Excel数据的应用   最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用pandas就会非常高效,基本上3行代码可以搞定你20行代码的操作!该教程仅仅限于结合柠檬班的全栈自动化测试课程来讲解下pandas在项目中的应用,这仅仅只是冰山一角,希望大家可以踊跃的去尝试和探索! 一.安装环境: 1:pandas依赖处理E…
python 利用 setup.py 手动安装第三方类库 由于我在mac使用时,装了python3,默认有python2的环境,使用 pip 安装第三方类库时,老是安装到 python2的环境上: 在想办法安装到python3上时,费了不少力气:在家里的windows电脑上安装了python3,在使用pip安装类库时,虽然安装在了python3上, 可是在创建测试项目还是import 不上,我想可能是环境变量没有设置对,最后还是手动安装吧 比如:手动安装requests 先下载requests包…
#第五周的作业--多功能计算器#1.实现加减乘除及括号的优先级的解析,不能使用eval功能,print(eval(equation))#2.解析复杂的计算,与真实的计算器结果一致#用户输入 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式后,# 必须自己解析里面的(),+,-,*,/符号和公式(不能调用eval等类似功能偷懒实现),运算后得出结果,结果必须…
Python web前端 04 盒子模型 盒子模型是由内容(content).内边距(padding).外边距(margin).边框(border)组成的 一.边框 border #border 边框 div{border:10px soiled blue}#依次表示border-width(边框宽度).border-style(类型).border-color(颜色),这是符合写法 #border-width #一个值的时候:表示四个方向一样,上右下左(顺时针): #两个值的时候:上下.右左…
杂项之python利用pycrypto实现RSA 本节内容 pycrypto模块简介 RSA的公私钥生成 RSA使用公钥加密数据 RSA使用私钥解密密文 破解博客园登陆 pycrypto模块简介 pycrypto模块是python中用来处理加密解密等信息安全相关的一个很重要模块. 该模块支持的加密方式: 对称加密方式: AES DES ARC4 散列值计算: MD5 SHA HMAC 公钥加密和签名: RSA DSA 基本上常见的关于信息安全类的算法都可以支持,所以,这是一个很强大的模块. 安装…
python转换已转义的字符串 有时我们可能会获取得以下这样的字符串: >>> a = '{\\"name\\":\\"michael\\"}' >>> print a {\"name\":\"michael\"} 那么该如何将其转换为一个字典呢? 可以用以下的方法: >>> type(json.loads('“' + a + '”')) <type 'unicode…
python利用决策树进行特征选择(注释部分为绘图功能),最后输出特征排序: import numpy as np import tflearn from tflearn.layers.core import dropout from tflearn.layers.normalization import batch_normalization from tflearn.data_utils import to_categorical from sklearn.model_selection i…
这一章节我们来展示一下如何利用泛型构建复杂模型? 1.元组列表 我们之前已经说过元组是一个复杂的模型,能够返回多对象. package com.ray.ch11; import java.util.ArrayList; public class Test { public ArrayList<Tuple<A, B, C>> test() { ArrayList<Tuple<A, B, C>> list = new ArrayList<Tuple<…
之前参见了中国软件杯大赛,在大赛中用到了深度学习的相关算法,也训练了一些简单的模型.项目线上平台是用java编写的web应用程序,而深度学习使用的是python语言,这就涉及到了在java代码中调用python语言的方法. 为了能在java应用中使用python语言训练的算法模型,我在网上找了很久.我大概找到了三种方法 1. java代码可以直接调用python代码,只需要下载相应的jar包就行.这种方式我没有尝试,只是觉得这样做使得java应用太过于依赖python的环境了.还有网上也有将py…
python利用kruskal算法求解最短路径的问题,修改参数后可以直接使用 def kruskal(): """ kruskal 算法 """ dimensional = get_array(9999) # 获取数组 node_num = len(dimensional) res = [] count = 0 # 获取节点值 for i in range(node_num): for j in range(i): if 0 < dimen…
需求分析,根据当前网页中的几张图片,在手机上长按,保存图片到相册或者发送给好友. drawCanvas(){ var self = this; var imgsrcArray = [ require('@/page/agent/agentexpand/img/bg.jpg'), 'data:image/jpeg;base64,'+this.codeUrl ]; var canvas = document.createElement('canvas'); var ctx = canvas.getC…
Python中多个列表与字典的合并方法 1多列表的合并 1)a+=b a=['] b = ['] a += b print(a) >>>['] 2) a.extend(b) a=['] b = ['] a.extend(b) print(a) >>>['1','2','3','22','55','66'] 3) a[0:0] = b切片的方法 a=['] b = ['] a[len(a):len(a)] = b print(a) >>>['] 2 多字…
本文部分内容来源于CDA深度学习实战课堂,由唐宇迪老师授课 如果你企图用CPU来训练模型,那么你就疯了- 训练模型中,最耗时的因素是图像大小size,一般227*227用CPU来训练的话,训练1万次可能要超过1周的时间. 不同的网络结构,可能会有不同图片尺寸的需求,所以训练之前需要了解一下,在生成LMDB环节就直接符合上模型的数据要求. 如果你自己DIY了框架,那么不知道如何检验框架与通用框架比较,是否优质,可以去benchmarks网站,跟别人的PK一下:http://human-pose.m…
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载.清理.转换以及重塑上.这些工作会占到分析时间的80%或更多.有时,存储在文件和数据库中的数据的格式不适合某个特定的任务.研究者都选择使用编程语言(如Python.Perl.R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理.幸运的是,pandas和内置的Python标准库提供了一组高级的.灵活的.快速的工具,可以让你轻松地将数据变为想要的格式. 在本部分,我们会讨论处理缺失数据.重复数据.字符串操作和其他分…
目录 朴素贝叶斯分类(NBC) 程序简介 分类流程 字典(dict)构造:用于jieba分词和槽值替换 数据集构建 代码分析 另外:点击右下角魔法阵上的[显示目录],可以导航~~ 朴素贝叶斯分类(NBC) 这篇博客的重点不在于朴素贝叶斯分类的原理,而在于怎么用朴素贝叶斯分类器解决实际问题.所以这边我就简单介绍以下我们使用的模型. NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单.贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类.它假设特征条件之间相互独立,先…
# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: https://www.youtube.com/channel/UCdyjiB5H8Pu7aDTNVXTTpcg # Youku video tutorial: http://i.youku.com/pythontutorial """ Please note, this code…
from __future__ import print_function import cPickle import gzip import os.path import random import numpy as np print("Expanding the MNIST training set") if os.path.exists("../data/mnist_expanded.pkl.gz"): print("The expanded tra…
消费者 """ 测试emq-消费者 @author me """ import paho.mqtt.client as mqtt import time class Consumer(object): def get_time(self): """ 获取时间 """ return time.strftime("%Y-%m-%d %H:%M:%S",time.local…
1 写在前面 在没有接触互联网这个行业的时候,我就一直很好奇网站是怎么构建的.现在虽然从事互联网相关的工作,但是也一直没有接触过Web开发之类的东西,但是兴趣终归还是要有的,而且是需要自己动手去实践的.Web开发的途径有好多种,比如传统的.Net,还有很火爆的Java.Python作为一种灵活好学的脚本语言,已经越来越受程序员的欢迎和热捧,甚至成为程序员的必备技能.Django是Python的Web开放框架,好多人说学习Python就是在学Django,从这也可以看出Django的强大.博主也是…
信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡.B卡.C卡和F卡:债项评级模型通常按照主体的融资用途,分为企业融资模型.现金流融资模型和项目融资模型等. 我们主要讨论主体评级模型的开发过程. 一.项目流程 典型的信用评分模型如图1-1所示.信用风险评级模型的主要开发流程如下: (1) 数据获取,包括获取存量客户及潜在客户的数据.存量客户是指已经在证券公司开展相关融资类业务的客户,包括个人客户和机构客户:…
多线程简介 多线程:在一个进程内部,要同时干很多事情,就需要同时执行多个子任务,我们把进程内的这些子任务叫线程. 线程的内存空间是共享的,每个线程都共享同一个进程的资源 模块: 1._thread模块 低级模块(在python3里基本已弃用) 2.threading模块 高级模块 对_thread模块进行了封装 threading模块使用 1.使用元组传递 threading.Thread(target=方法名,arg=(参数1,参数2...)) 2.用字典传递 threading.Thread…
import numpy as np import pandas as pd import math def bool_retrieval(string): if string.count('and')*string.count('or') > 0: a = string[:string.find('or')] b = string[string.find('or')+3:] bool_retrieval(a) bool_retrieval(b) elif 'or' in string: key…