统计学习导论：基于R应用—

第四章习题，部分题目未给出答案

这个题比较简单，有高中生推导水平的应该不难。

2~3证明题，略

(a)

这个问题问我略困惑，答案怎么直接写出来了，难道不是10%么

(b)

这个答案是(0.1*0.1)/(1*1)，所以答案是1%

(c)

其实就是个空间所占比例，所以这题是(0.1**100)*100 = 0.1**98%

(d)

这题答案显而易见啊，而且是指数级别下降

(e)

答案是0.1**(1)、0.1**(1/2)、0.1**(1/3)...0.1**(1/100)

这题在中文版的104页的偏差-方差权衡说的听清楚。

(a)

当贝叶斯决策边界是线性的时候，训练集上当然是QDA效果好，因为拟合的更好。而测试集上是LDA更好，因为更接近实际。

(b)

当贝叶斯决策边界是非线性的时候，QDA在训练集和测试集都比LDA好

(c)

相比于LDA，QDA的预测率变得更好。因为当样本量n提升时，一个自由度更高的模型会产生更好的效果，因为方差会被大的样本抵消一点

(d)

不对。因为当样本很少时，QDA会过拟合。

(a)

由公式 $p\left ( X \right ) = \frac{exp\left ( \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} \right )}{1 + exp\left ( \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} \right )}$ 直接带入p(X)=37.75%

(b)

还是带入上述公式，反求X1为50hours

其实就是贝叶斯公式+中文版书97页公式4-12。。。有点繁琐，最后答案是75.2%

文字题。。当你用K=1的KNN时，在训练集上的错误率是0%，所以测试集上错误率实际是36%。我们当然选逻辑回归啦

参见92页公式4-3。。。就是带入公式而已，第一题是27%，第二题是0.19

10.

(a)

感觉题目里面让我们进行数值和图像描述统计时，大概就三条命令：summary()、pairs()、cor()。不过pairs()在特征很多的时候，跑的真心慢，cor()在使用前也要把定性的变量去掉。

library(ISLR)

summary(Weekly)

pairs(Weekly)

cor(Weekly[, -9])

(b)

attach(Weekly)

glm.fit = glm(Direction ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 + Volume, data = Weekly,  family = binomial)

summary(glm.fit)

(c)

glm.probs = predict(glm.fit, type = "response")

glm.pred = rep("Down", length(glm.probs))

glm.pred[glm.probs > 0.5] = "Up"

table(glm.pred, Direction)

(d)

train = (Year < 2009)

Weekly.0910 = Weekly[!train, ]

glm.fit = glm(Direction ~ Lag2, data = Weekly, family = binomial, subset = train)

glm.probs = predict(glm.fit, Weekly.0910, type = "response")

glm.pred = rep("Down", length(glm.probs))

glm.pred[glm.probs > 0.5] = "Up"

Direction.0910 = Direction[!train]

table(glm.pred, Direction.0910)
mean(glm.pred == Direction.0910)

(e)

library(MASS)

lda.fit = lda(Direction ~ Lag2, data = Weekly, subset = train)

lda.pred = predict(lda.fit, Weekly.0910)

table(lda.pred$class, Direction.0910)

mean(lda.pred$class == Direction.0910)

(f)

qda.fit = qda(Direction ~ Lag2, data = Weekly, subset = train)

qda.class = predict(qda.fit, Weekly.0910)$class

table(qda.class, Direction.0910)

mean(qda.class == Direction.0910)

(g)

library(class)

train.X = as.matrix(Lag2[train])

test.X = as.matrix(Lag2[!train])

train.Direction = Direction[train]

set.seed(1)

knn.pred = knn(train.X, test.X, train.Direction, k = 1)

table(knn.pred, Direction.0910)

mean(knn.pred == Direction.0910)

(h)

两种方法的准确率一样。。。

(i)

# Logistic regression with Lag2:Lag1

glm.fit = glm(Direction ~ Lag2:Lag1, data = Weekly, family = binomial, subset = train)

glm.probs = predict(glm.fit, Weekly.0910, type = "response")

glm.pred = rep("Down", length(glm.probs))

glm.pred[glm.probs > 0.5] = "Up"

Direction.0910 = Direction[!train]

table(glm.pred, Direction.0910)

mean(glm.pred == Direction.0910)

## [1] 0.5865

# LDA with Lag2 interaction with Lag1

lda.fit = lda(Direction ~ Lag2:Lag1, data = Weekly, subset = train)

lda.pred = predict(lda.fit, Weekly.0910)

mean(lda.pred$class == Direction.0910)

## [1] 0.5769

# QDA with sqrt(abs(Lag2))

qda.fit = qda(Direction ~ Lag2 + sqrt(abs(Lag2)), data = Weekly, subset = train)

qda.class = predict(qda.fit, Weekly.0910)$class

table(qda.class, Direction.0910)

mean(qda.class == Direction.0910)

## [1] 0.5769

# KNN k =10

knn.pred = knn(train.X, test.X, train.Direction, k = 10)

table(knn.pred, Direction.0910)

mean(knn.pred == Direction.0910)

## [1] 0.5769

# KNN k = 100

knn.pred = knn(train.X, test.X, train.Direction, k = 100)

table(knn.pred, Direction.0910)

mean(knn.pred == Direction.0910)

## [1] 0.5577

结果在代码注释中，逻辑回归效果最好

11.

(a)

library(ISLR)

summary(Auto)

attach(Auto)

mpg01 = rep(0, length(mpg))

mpg01[mpg > median(mpg)] = 1

Auto = data.frame(Auto, mpg01)

(b)

cor(Auto[, -9])

pairs(Auto)

(c)

train = (year%%2 == 0)  # if the year is even

test = !train

Auto.train = Auto[train, ]

Auto.test = Auto[test, ]

mpg01.test = mpg01[test]

(d)

library(MASS)

lda.fit = lda(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto, subset = train)

lda.pred = predict(lda.fit, Auto.test)

mean(lda.pred$class != mpg01.test)

(e)

qda.fit = qda(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto, subset = train)

qda.pred = predict(qda.fit, Auto.test)

mean(qda.pred$class != mpg01.test)

(f)

glm.fit = glm(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto, family = binomial, subset = train)

glm.probs = predict(glm.fit, Auto.test, type = "response")

glm.pred = rep(0, length(glm.probs))

glm.pred[glm.probs > 0.5] = 1

mean(glm.pred != mpg01.test)

(g)

library(class)

train.X = cbind(cylinders, weight, displacement, horsepower)[train, ]

test.X = cbind(cylinders, weight, displacement, horsepower)[test, ]

train.mpg01 = mpg01[train]

set.seed(1)

# KNN(k=1)

knn.pred = knn(train.X, test.X, train.mpg01, k = 1)

mean(knn.pred != mpg01.test)

# KNN(k=10)

knn.pred = knn(train.X, test.X, train.mpg01, k = 10)

mean(knn.pred != mpg01.test)

# KNN(k=100)

knn.pred = knn(train.X, test.X, train.mpg01, k = 100)

mean(knn.pred != mpg01.test)

13题和11题类似，就是用这几个函数。所以13题略。

12.

(a)~(b)

Power = function() {

  2^3

}

print(Power())

Power2 = function(x, a) {

  x^a

}

Power2(3, 8)

(c)

Power2(10, 3)

Power2(8, 17)

Power2(131, 3)

(d)~(f)

Power3 = function(x, a) {

  result = x^a

  return(result)

}

x = 1:10

plot(x, Power3(x, 2), log = "xy", ylab = "Log of y = x^2", xlab = "Log of x",

     main = "Log of x^2 versus Log of x")

PlotPower = function(x, a) {

  plot(x, Power3(x, a))

}

PlotPower(1:10, 3)

统计学习导论：基于R应用——第四章习题的更多相关文章

统计学习导论：基于R应用——第三章习题
第三章习题部分证明题未给出答案 1. 表3.4中,零假设是指三种形式的广告对TV的销量没什么影响.而电视广告和收音机广告的P值小说明,原假设是错的,也就是电视广告和收音机广告均对TV的销量有影响:报 ...
统计学习导论：基于R应用——第五章习题
第五章习题 1. 我们主要用到下面三个公式: 根据上述公式,我们将式子化简为对求导即可得到得到公式5-6. 2. (a) 1 - 1/n (b) 自助法是有有放回的,所以第二个的概率还是1 - 1/ ...
统计学习导论：基于R应用——第二章习题
目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高 ...
PythonCrashCourse 第四章习题
Python 从入门到实践第四章习题 4.1想出至少三种你喜欢的比萨,将其名称存储在一个列表中,再使用for 循环将每种比萨的名称都打印出来修改这个for 循环,使其打印包含比萨名称的句子,而不仅仅 ...
《零成本实现Web自动化测试--基于Selenium》第四章 Selenium 命令
Selenium 命令,通常被称为Selenese,由一系列运行测试案例所需要的命令构成.按顺序排列这些命令就构成了测试脚本. 一. 验证颜面元素 1.Assertion或者Verification ...
《Python 学习手册4th》第十四章迭代器和解析
''' 时间: 9月5日 - 9月30日要求: 1. 书本内容总结归纳,整理在博客园笔记上传 2. 完成所有课后习题注:“#” 后加的是备注内容 (每天看42页内容,可以保证月底看完此书) “重点 ...
《学习OpenCV》第四章习题六
实现的是一个图像标签编辑器,其间遇到了些问题还未解决或者可能解决方法上不是最优,若你有更好的思路可以提供给我,大恩不言谢啦!!☆⌒(*^-゜)v. #include "stdafx.h&qu ...
Linux网络编程学习(八) ----- 文件和记录锁定(第四章)
1.什么是文件和记录锁定? 文件锁定的是整个文件,而记录锁定只锁定文件的一部分,文件和记录锁分为咨询式锁定和强制锁定 1)咨询式锁定某个进程对某个文件进行了咨询式锁定,其他想访问该文件的进程将会被操 ...
C和指针第十四章习题
14.1 打印函数 #include <stdio.h> void print_ledger_long(){ printf("function print_ledger_long ...

随机推荐

printf 缓冲区问题
突然发现printf的问题,看了这个很有意思,学习一下转自:http://blog.csdn.net/shanshanpt/article/details/7385649 昨天在做Linux实验的时 ...
ubuntn 虚拟机NAT 静态IP 网络配置
在虚拟机安装ubuntu12.04自动获取IP 一切都没有问题 ssh连接也正常.关机重启后郁闷的发现网络已经不通了,于是开始了以下的摸索. 1.配置静态IP 网关: ip段: 命令: Vim /et ...
MOS管(场效应管)导通条件
场效应管的导通与截止由栅源电压来控制,对于增强型场效应管来说,N沟道的管子加正向电压即导通,P沟道的管子则加反向电压.一般2V-4V就可以了. 但是,场效应管分为增强型(常开型)和耗尽型(常闭型 ...
mysql数据类型——TEXT和Blob
TEXT是以文本方式存储的,如果存储英文的话区分大小写 Blob是以二进制方式存储的,不区分大小写. xxxBlob存储的数据只能整体读出有4种text类型:tinytext.text.medi ...
Asp.Net使用异步性能就提升吗
Asp.Net异步编程随着.Net4.5的推出,一种新的编程方式简化了异步编程,在网上时不时的也看到各种打着Asp.Net异步编程的口号,如何提高性能,如何提高吞吐率! 好多文章都说得不清楚,甚 ...
Fresco 多图加载之ResizeOptions
引言最近圈子开发工作比较重再加上寒冬已至,所以停了两个月没写,手有点生,好吧,这都是借口,我承认-(￣▽￣-),下面回归正题. 一般地在使用Fresco图片的时候,无需担心图片大小的问题,因为通常 ...
提高Order by语句查询效率的两个思路
提高Order by语句查询效率的两个思路 2011-03-01 13:07 水太深 ITPUB 字号:T | T 在MySQL数据库中,Order by语句的使用频率是比较高的.但是众所周知,在使用 ...
Gunicorn快速入门
Gunicorn (独角兽)是一个高效的Python WSGI Server,通常用它来运行 wsgi application(由我们自己编写遵循WSGI application的编写规范) 或者 w ...
Application路径
根目录:StreamingAssets文件夹 #if UNITY_EDITOR string filepath = Application.dataPath +"/StreamingAsse ...
理解Java（StringBuffer和StringBuilder）
StringBuffer可实现同步,StringBuilder线程不安全. 翻译自Java API英文文档本质 StringBuffer 和 StringBuilder 均表示一个可变字符序列这个 ...

统计学习导论：基于R应用——第四章习题

统计学习导论：基于R应用——第四章习题的更多相关文章

随机推荐

热门专题