Machine Learning for hackers读书笔记(七)优化：密码破译

#凯撒密码：将每一个字母替换为字母表中下一位字母，比如a变成b。

english.letters <- c('a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k',

'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v',

'w', 'x', 'y', 'z')

caesar.cipher <- list()

inverse.caesar.cipher <- list()

#加密LIST和解密LIST

for (index in 1:length(english.letters))

{

caesar.cipher[[english.letters[index]]] <- english.letters[index %% 26 + 1]

inverse.caesar.cipher[[english.letters[index %% 26 + 1]]] <- english.letters[index]

}

print(caesar.cipher)

# 单字符串加密

apply.cipher.to.string <- function(string, cipher)

{

output <- ''

for (i in 1:nchar(string))

{

output <- paste(output, cipher[[substr(string, i, i)]], sep = '')

}

return(output)

}

#向量字符串加密

apply.cipher.to.text <- function(text, cipher)

{

output <- c()

for (string in text)

{

output <- c(output, apply.cipher.to.string(string, cipher))

}

return(output)

}

apply.cipher.to.text(c('sample', 'text'), caesar.cipher)

#贪心优化：只有当新解密规则得到的解密串的概率变高时，才接受新的解密规则

#思路：

#1.如果解密规则B解密出的解密串的概率大于解密规则A对应的解密串，那么我们用B代替A

#2.如果解密规则B解密出的解密串的概率小于解密规则A对应的解密串，我们仍然有可能用B代替A，不过并不是每次都替换。

#如果解密规则B对应的解密串的概率是p1，解密规则A对应的解密串的概率是p2，以p1/p2的概率从解密规则A替换到解密规则B（表示有一定的概率接受B，这使得不会陷入贪心优化陷阱中）

#随便产生一个加密规则

generate.random.cipher <- function()

{

cipher <- list()

inputs <- english.letters

outputs <- english.letters[sample(1:length(english.letters), length(english.letters))]

for (index in 1:length(english.letters))

{

cipher[[inputs[index]]] <- outputs[index] }

return(cipher)

}

modify.cipher <- function(cipher, input, output)

{

new.cipher <- cipher

new.cipher[[input]] <- output

old.output <- cipher[[input]]

collateral.input <- names(which(sapply(names(cipher), function (key) {cipher[[key]]}) == output))

new.cipher[[collateral.input]] <- old.output

return(new.cipher)

}

#对加密算法作一些修改

propose.modified.cipher <- function(cipher)

{

input <- sample(names(cipher), 1)

output <- sample(english.letters, 1)

return(modify.cipher(cipher, input, output))

}

#加载词典

load(file.path('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\07-Optimization\\data\\lexical_database.Rdata'))

#看一下里面的数据

lexical.database[['a']]

lexical.database[['the']]

lexical.database[['he']]

lexical.database[['she']]

lexical.database[['data']]

#取概率的,词典里有就返回,词典里没有返回一个最小的浮点数

one.gram.probability <- function(one.gram, lexical.database = list())

{

lexical.probability <- lexical.database[[one.gram]]

if (is.null(lexical.probability) || is.na(lexical.probability))

{

return(.Machine$double.eps)

}

else

{

return(lexical.probability)

}

#给定一个字符串向量,计算概率,概率不用连乘,用求和

log.probability.of.text <- function(text, cipher, lexical.database = list())

{

log.probability <- 0.0

for (string in text)

{

decrypted.string <- apply.cipher.to.string(string, cipher)

log.probability <- log.probability +

log(one.gram.probability(decrypted.string, lexical.database))

}

return(log.probability)

}

metropolis.step <- function(text, cipher, lexical.database = list())

{

#对加密规则作一下修改

proposed.cipher <- propose.modified.cipher(cipher)

#计算原加密规则及修改过的加密规则的概率

lp1 <- log.probability.of.text(text, cipher, lexical.database)

lp2 <- log.probability.of.text(text, proposed.cipher, lexical.database)

#如果新的比较好,直接换掉

if (lp2 > lp1)

{

return(proposed.cipher)

}

else

{

#如果旧的比较好,

a <- exp(lp2 - lp1)

#x是均匀分布的0~1间随机数

x <- runif(1)

if (x < a)

{

return(proposed.cipher)

}

else

{

return(cipher)

}

# 5个字符串的向量

decrypted.text <- c('here', 'is', 'some', 'sample', 'text')

#用凯撒加密规则加一下密

encrypted.text <- apply.cipher.to.text(decrypted.text, caesar.cipher)

set.seed(1)

#生成随机加密规则

cipher <- generate.random.cipher()

results <- data.frame()

#50000次迭代

number.of.iterations <- 50000

for (iteration in 1:number.of.iterations)

{

#算一下加密结果的概率

log.probability <- log.probability.of.text(encrypted.text,cipher,lexical.database)

#得出解密结果

current.decrypted.text <- paste(apply.cipher.to.text(encrypted.text, cipher),collapse = ' ')

#得出判断结果,1为正确,0为不正确

correct.text <- as.numeric(current.decrypted.text == paste(decrypted.text,

collapse = ' '))

#形成数据框,包括迭代次数,概率及解密后的结果,以及正确率

results <- rbind(results,data.frame(Iteration = iteration, LogProbability = log.probability,CurrentDecryptedText = current.decrypted.text,CorrectText = correct.text))

cipher <- metropolis.step(encrypted.text, cipher, lexical.database)

}

Machine Learning for hackers读书笔记(七)优化：密码破译的更多相关文章

Machine Learning for hackers读书笔记(六)正则化：文本回归
data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...
Machine Learning for hackers读书笔记(三)分类：垃圾邮件过滤
#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...
Machine Learning for hackers读书笔记_一句很重要的话
为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
Machine Learning for hackers读书笔记(十二)模型比较
library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...
Machine Learning for hackers读书笔记(十)KNN：推荐系统
#一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...
Machine Learning for hackers读书笔记(九)MDS：可视化地研究参议员相似性
library('foreign') library('ggplot2') data.dir <- file.path('G:\\dataguru\\ML_for_Hackers\\ML_for ...
Machine Learning for hackers读书笔记(八)PCA：构建股票市场指数
library('ggplot2') prices <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\08-PC ...
Machine Learning for hackers读书笔记(五)回归模型：预测网页访问量
线性回归函数 model<-lm(Weight~Height,data=?) coef(model):得到回归直线的截距 predict(model):预测 residuals(model):残 ...
Machine Learning for hackers读书笔记(四)排序：智能收件箱
#数据集来源http://spamassassin.apache.org/publiccorpus/ #加载数据 library(tm)library(ggplot2)data.path<-'F ...

随机推荐

#!--->hashbang技术
url中的#! URL 中的 # 本来的用途是跳转到页内锚点.一个 URL 中 # 后的值 (hash tag) 不影响所访问网页的内容,所以搜索引擎在处理仅仅 hash tag 不同的多个 URL ...
jquery的ajax同步和异步的理解及示例
之前一直在写JQUERY代码的时候遇到AJAX加载数据都需要考虑代码运行顺序问题.最近的项目用了到AJAX同步.这个同步的意思是当JS代码加载到当前AJAX的时候会把页面里所有的代码停止加载,页面出去 ...
BZOJ2199: [Usaco2011 Jan]奶牛议会
趁此机会学了一下2-SAT. 以前的2-SAT都是用并查集写的,只能应用于极小的一部分情况,这次学了一正式的2-SAT,是用一张有向图来表示其依赖关系. 2-SAT的介绍参见刘汝佳<训练指南&g ...
PHP event 事件机制
PHP event 事件机制 <?php /* * PHP 事件机制 */ class baseClass{ private $_e; public function __set($name ...
Acdream1217 Cracking' RSA(高斯消元)
题意:给你m个数(m<=100),每个数的素因子仅来自于前t(t<=100)个素数,问这m个数的非空子集里,满足子集里的数的积为完全平方数的有多少个. 一开始就想进去里典型的dp世界观里, ...
SPOJ375 Query on a tree(LCT边权)
之前做了两道点权的LCT,这次做一下边权的LCT.上网找了一下资料,发现对于边权的LCT有这么两种处理方法,一种是每条边建一个点,于是边权就转成点权了.另外一种则是每个边权对应到点权上,也就是每个点对 ...
大一暑假为期五周的ACM实验室培训结束了(2013.8.24)
没想到,我的大学里第一个暑假,9周的时间只有最初的两周在家待着,接下来的7周将会在学校度过. 说真的,这是我上学以来,第一次真正好好利用的假期.在这五周里,周一.三.五下午学长都会给我们讲点知识,之后 ...
touch事件学习
window.onload = function(){ var touch = { movetarget : false, touchStart : function (e) { console.lo ...
Win7系统配置IIS7服务
1.开启IIS7服务打开控制面板,选择并进入“程序”,双击“打开或关闭Windows服务”,在弹出的窗口中选择“Internet信息服务”下面所有地选项,点击确定后,开始更新服务. 2.安装web文 ...
C# virtual和override
本文转载来自于:http://bollaxu.iteye.com/blog/1662855 在函数的声明中,当有“virtual”修饰的时候,和没有virtual有什么区别呢?最重要的一点就是调用实例 ...

Machine Learning for hackers读书笔记(七)优化：密码破译

Machine Learning for hackers读书笔记(七)优化：密码破译的更多相关文章

随机推荐

热门专题