(CV学习笔记)看图说话(Image Captioning)-2

实现load_img_as_np_array
def load_img_as_np_array(path, target_size):

    """从给定文件[加载]图像,[缩放]图像大小为给定target_size,返回[Keras支持]的浮点数numpy数组.

    # Arguments

        path: 图像文件路径

        target_size: 元组(图像高度, 图像宽度).

    # Returns

        numpy 数组.

    """


使用PIL库：
from PIL import Image as pil_image

img = pil_image.open(file)

img.resize(targent_size,pil_image.NEAREST)

return np.asarray(img, dtype=keras.floatx())


assarray方法输入两个参数，第一个图像对象，第二个是转换的参数类型
floatx类型是keras的浮点类型，会自动转换为需要的数据。
实现load_vgg16_model
def load_vgg16_model():

    """从当前目录下面的 vgg16_exported.json 和 vgg16_exported.h5 两个文件中导入 VGG16 网络并返回创建的网络模型

    # Returns

        创建的网络模型 model

    """


json存储网络结构
h5存储网络权值，这个文件比较大
from keras.models import model_from_json

# 从json中导入网络模型

json_file = open("vgg16_exported.json", 'r')

loaded_model_json = json_file.read()

json_file.close()

model = model_from_json(loaded_model_json)

model.load_weights("vgg16_exported.h5")


实现preprocess_input
def preprocess_input(x):

    """预处理图像用于网络输入, 将图像由RGB格式转为BGR格式.

       将图像的每一个图像通道减去其均值

       均值BGR三个通道的均值分别为 103.939, 116.779, 123.68

    # Arguments

        x: numpy 数组, 4维.

        data_format: Data format of the image array.

    # Returns

        Preprocessed Numpy array.

    """

    # 'RGB'->'BGR', https://www.scivision.co/numpy-image-bgr-to-rgb/

    x = x[..., ::-1]

    mean = [103.939, 116.779, 123.68]

    x[..., 0] -= mean[0]

    x[..., 1] -= mean[1]

    x[..., 2] -= mean[2]

    return x


实现extract_features
def extract_features(directory):

    """提取给定文件夹中所有图像的特征, 将提取的特征保存在文件features.pkl中,

       提取的特征保存在一个dict中, key为文件名(不带.jpg后缀), value为特征值[np.array]

    Args:

        directory: 包含jpg文件的文件夹

    Returns:

        None

    """


为了增强泛化能力，我们需要将最后一层去除，也就是VGG16最终输出的特征向量应该为4096纬。我们使用layers.pop()方法来实现。
model.layers.pop()

    model = Model(inputs=model.inputs, outputs=model.layers[-1].output)


   Inputs是原来的网络输出
   Outputs输出的是新的网络
使用数据字典来存储，进行批处理。
神经网络的输入纬度是四维，需要使用在最前面加一个纬度。
features = dict()

    pbar = tqdm(total=len(listdir(directory)), desc="进度", ncols=100)

    for fn in listdir(directory):

        print("\tRead file:", fn)

        fn_path = directory + '/' + fn

        # 返回长、宽、通道的三维张量

        arr = load_img_as_np_array(fn_path, target_size=(224,224))

        # 改变数组的形态，增加一个维度（批处理）—— 4维

        arr = arr.reshape((1, arr.shape[0], arr.shape[1], arr.shape[2]))

        # 预处理图像为VGG模型的输入

        arr = preprocess_input(arr)

        # 计算特征

        feature = model.predict(arr, verbose=0)


存储
id = os.path.splitext(fn)[0]

        features[id] = feature

        print("Saved. ", id)

        pbar.update(1)


实现Creat_tokenizer

文本预处理可以通过keras实现

文本标记实用类。
该类允许使用两种方法向量化一个文本语料库： 将每个文本转化为一个整数序列（每个整数都是词典中标记的索引）； 或者将其转化为一个向量，其中每个标记的系数可以是二进制值、词频、TF-IDF权重等。
参数
num_words: 需要保留的最大词数，基于词频。只有最常出现的 num_words 词会被保留。
filters: 一个字符串，其中每个元素是一个将从文本中过滤掉的字符。默认值是所有标点符号，加上制表符和换行符，减去 ' 字符。
lower: 布尔值。是否将文本转换为小写。
split: 字符串。按该字符串切割文本。
char_level: 如果为 True，则每个字符都将被视为标记。
oov_token: 如果给出，它将被添加到 word_index 中，并用于在 text_to_sequence 调用期间替换词汇表外的单词。
默认情况下，删除所有标点符号，将文本转换为空格分隔的单词序列（单词可能包含 ' 字符）。 这些序列然后被分割成标记列表。然后它们将被索引或向量化。
0 是不会被分配给任何单词的保留索引。
示例：
from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()

lines = ['this is good', 'that is a cat']

tokenizer.fit_on_texts(lines)

results = tokenizer.texts_to_sequences(['cat is good'])

print(results[0])


实现create_input_data_for_one_image函数


def create_input_data(tokenizer, max_length, descriptions, photos_features, vocab_size):

    """

    从输入的图片标题list和图片特征构造LSTM的一组输入

    Args:

    :param tokenizer: 英文单词和整数转换的工具keras.preprocessing.text.Tokenizer

    :param max_length: 训练数据集中最长的标题的长度

    :param descriptions: dict, key 为图像的名(不带.jpg后缀), value 为list, 包含一个图像的几个不同的描述

    :param photos_features:  dict, key 为图像的名(不带.jpg后缀), value 为numpy array 图像的特征

    :param vocab_size: 训练集中表的单词数量

    :return: tuple:

            第一个元素为 numpy array, 元素为图像的特征, 它本身也是 numpy.array

            第二个元素为 numpy array, 元素为图像标题的前缀, 它自身也是 numpy.array

            第三个元素为 numpy array, 元素为图像标题的下一个单词(根据图像特征和标题的前缀产生) 也为numpy.array

    Examples:

        from pickle import load

        tokenizer = load(open('tokenizer.pkl', 'rb'))

        max_length = 6

        descriptions = {'1235345':['startseq one bird on tree endseq', "startseq red bird on tree endseq"],

                        '1234546':['startseq one boy play water endseq', "startseq one boy run across water endseq"]}

        photo_features = {'1235345':[ 0.434,  0.534,  0.212,  0.98 ],

                          '1234546':[ 0.534,  0.634,  0.712,  0.28 ]}

        vocab_size = 7378

        print(create_input_data(tokenizer, max_length, descriptions, photo_features, vocab_size))

(array([[ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.434,  0.534,  0.212,  0.98 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ],

       [ 0.534,  0.634,  0.712,  0.28 ]]),

array([[  0,   0,   0,   0,   0,   2],

       [  0,   0,   0,   0,   2,  59],

       [  0,   0,   0,   2,  59, 254],

       [  0,   0,   2,  59, 254,   6],

       [  0,   2,  59, 254,   6, 134],

       [  0,   0,   0,   0,   0,   2],

       [  0,   0,   0,   0,   2,  26],

       [  0,   0,   0,   2,  26, 254],

       [  0,   0,   2,  26, 254,   6],

       [  0,   2,  26, 254,   6, 134],

       [  0,   0,   0,   0,   0,   2],

       [  0,   0,   0,   0,   2,  59],

       [  0,   0,   0,   2,  59,  16],

       [  0,   0,   2,  59,  16,  82],

       [  0,   2,  59,  16,  82,  24],

       [  0,   0,   0,   0,   0,   2],

       [  0,   0,   0,   0,   2,  59],

       [  0,   0,   0,   2,  59,  16],

       [  0,   0,   2,  59,  16, 165],

       [  0,   2,  59,  16, 165, 127],

       [  2,  59,  16, 165, 127,  24]]),

array([[ 0.,  0.,  0., ...,  0.,  0.,  0.],

       [ 0.,  0.,  0., ...,  0.,  0.,  0.],

       [ 0.,  0.,  0., ...,  0.,  0.,  0.],

       ...,

       [ 0.,  0.,  0., ...,  0.,  0.,  0.],

       [ 0.,  0.,  0., ...,  0.,  0.,  0.],

       [ 0.,  0.,  0., ...,  0.,  0.,  0.]]))

    """

    pass


查看原文：https://upcwsh.top/cv/188/

(CV学习笔记)看图说话(Image Captioning)-2的更多相关文章

(CV学习笔记)看图说话(Image Captioning)-1
Background 分别使用CNN和LSTM对图像和文字进行处理: 将两个神经网络结合: 应用领域图像搜索安全鉴黄涉猎知识数字图像处理图像读取图像缩放图像数据纬度变换自然语言处理 ...
学习笔记TF060:图像语音结合，看图说话
斯坦福大学人工智能实验室李飞飞教授,实现人工智能3要素:语法(syntax).语义(semantics).推理(inference).语言.视觉.通过语法(语言语法解析.视觉三维结构解析)和语义(语言 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
(CV学习笔记)Attention
Attention(注意力机制) Attention for Image Attention for Machine Translation Self-Attention 没有image-Attent ...
Windows phone 8 学习笔记(5) 图块与通知
原文:Windows phone 8 学习笔记(5) 图块与通知基于metro风格的Windows phone 8 应用提到了图块的概念,它就是指启动菜单中的快速启动图标.一般一个应用必须有一个默认 ...
iOS学习笔记20-地图(二)MapKit框架
一.地图开发介绍从iOS6.0开始地图数据不再由谷歌驱动,而是改用自家地图,当然在国内它的数据是由高德地图提供的. 在iOS中进行地图开发主要有三种方式: 利用MapKit框架进行地图开发,利用这种 ...
[看图说话]在VMware Workstation 9中安装Mac OS X 10.8 Mountain Lion
本文环境: CPU:Intel Core i7 920: OS:Windows 7: 内存:8G: 玩Hackintosh各有各的理由,不管什么理由,利用虚拟机安装Mac OS X都是一个可行的办法. ...
Windows phone 8 学习笔记(5) 图块与通知（转）
基于metro风格的Windows phone 8 应用提到了图块的概念,它就是指启动菜单中的快速启动图标.一般一个应用必须有一个默认图块,还可以有若干个次要图块.另外,通知与图块的关系比较密切,我们 ...
BZOJ 1061: [Noi2008]志愿者招募 [单纯形法]【学习笔记看另一篇吧】
1061: [Noi2008]志愿者招募 Time Limit: 20 Sec Memory Limit: 162 MBSubmit: 3975 Solved: 2421[Submit][Stat ...

随机推荐

[DP浅析]线性DP初步 - 2 - 单调队列优化
目录 #0.0 前置知识 #1.0 简单介绍 #1.1 本质 & 适用范围 #1.2 适用方程 & 条件 #2.0 例题讲解 #2.1 P3572 [POI2014]PTA-Littl ...
为什么要从 Linux 迁移到 BSD3
BSD 是正常人所在的地方首先我要说的是,我并不是字面上的意思.我这里说的是从系统管理和编码的角度出发的设计和开发决策. 与 Linux 发行版相反,Berkeley 软件发行版( BSD )并不是 ...
报错NameError: name ‘null’ is not defined的解决方法
报错NameError: name 'null' is not defined的解决方法 eval()介绍 eval()函数十分强大,官方demo解释为:将字符串str当成有效的表达式来求值并返回计算 ...
来，Consul 服务发现入个门(一看就会的那种)
前言在微服务架构中,对于一个系统,会划分出多个微服务,而且都是独立开发.独立部署,最后聚合在一起形成一个系统提供服务.当服务数量增多时,这些小服务怎么管理?调用方又怎么能确定服务的IP和端口?服务挂 ...
Python之基础算法介绍
一.算法介绍 1. 算法是什么算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制.也就是说,能够对一定规范的输入,在有限时间内获得所要求的输 ...
开发C语言的3款神器，VS2019、VScode和IntelliJ Clion
一.Visual Studio 2019环境安装配置+代码调试环境安装配置首先我们要在Visual Studio官方网站去下载安装包进入官网后会发现有三种版本可供下载,分别是社区版.专业版和企业 ...
攻防世界 reverse 666
666 2019_UNCTF main int __cdecl main(int argc, const char **argv, const char **envp) { char myen; / ...
以绝对优势立足：从CDN和云存储来聊聊云生态的崛起
以绝对优势立足:从CDN和云存储来聊聊云生态的崛起前面几期文章我们介绍了混合云模式,以及面向应用层的云架构解决方案的Spring Cloud.接下来,我们就以蘑菇街的两个具体案例,来分享一下基于混合 ...
[状压DP]车II
车 I I 车II 车II 题目描述有一个 n ∗ m n*m n∗m的棋盘 ( n . m ≤ 80 , n ∗ m ≤ 80 ) (n.m≤80,n*m≤80) (n.m≤80,n∗m≤80)要 ...
记一次metasploitable2内网渗透之1524端口
0x01.漏洞许多攻击脚本将安装一个后门SHELL于这个端口,尤其是针对SUN系统中Sendmail和RPC服务漏洞的脚本.如果刚安装了防火墙就看到在这个端口上的连接企图,很可能是上述原因.可以试试 ...

(CV学习笔记)看图说话(Image Captioning)-2

实现load_img_as_np_array

实现load_vgg16_model

实现preprocess_input

实现extract_features

实现Creat_tokenizer

示例：

实现create_input_data_for_one_image函数

(CV学习笔记)看图说话(Image Captioning)-2的更多相关文章

随机推荐

热门专题