一、训练自己数据集的YOLOv8模型

1.博主电脑配置

2.深度学习GPU环境配置

3.yolov8深度学习环境准备

4.准备数据集

二、Python+Onnx模型进行图像缺陷检测，并在原图中标注

一、训练自己数据集的YOLOv8模型

如果已经有了自己数据集的onnx模型或pt模型，则可以直接跳到二。

1.博主电脑配置

NVIDIA GeForce RTX 3060 12G

Intel(R) Xeon(R) E5-2670 v2 2.50GHz

DDR3 16G

2.深度学习GPU环境配置

python3.9.16+cuda11.1+pytorch1.9.0+torchvision0.10.0+Anaconda3

打开Anaconda Prompt

conda create --name 环境名字(字母组成) python=3.9.16

activate 你环境的名字

pip install ultralytics

conda install pytorch==1.9.0 torchvision==0.10.0

3.yolov8深度学习环境准备

到这个网站下载yolov8模型，并解压，尽量放在不含中文路径的文件夹内，解压后是ultralytics-main文件夹。然后我们再Anaconda内cd进这个文件夹

cd C:\Users\SlowS\Desktop\ultralytics-main(你电脑上ultralytics-main的路径)

pip install -r requirements.txt

4.准备数据集

在主目录ultralytics-main下创建my_data文件夹，在my_data文件夹内创建Annotations、images、ImageSets、labels这几个文件夹。这几个文件夹名字不能更改！！！

Annotations	放xml标注文件，如果没有也不用管
images	放数据集文件
ImageSets	放txt文件，暂时不用管
labels	放txt标注文件，暂时不用管

通过python下载labelimg，并开始标注数据集

然后参考博客来划分数据集，并进行训练。(2条消息) YOLOv8教程系列：一、使用自定义数据集训练YOLOv8模型（详细版教程，你只看一篇-＞调参攻略），包含环境搭建/数据准备/模型训练/预测/验证/导出等_Zhijun.li@Studio的博客-CSDN博客

二、Python+Onnx模型进行图像缺陷检测，并在原图中标注

1、模型转换

通过训练得到的模型是pt文件，我们需要转换为onnx文件

from ultralytics import YOLO

# 加载模型

model = YOLO("models\\best.pt")

# 转换模型

model.export(format="onnx")

2、查看模型结构

通过以下网站来查看onnx模型结构

best.onnx (netron.app)

可以得到，输入图片的尺寸要求为3*640*640，输出结果为float32的n*8400二维数组，n为数据集缺陷种类的数量

3、修改输入图片的尺寸

为防止图片畸变，所以需要将图片修改为如下形状

import onnxruntime

import numpy as np

import tkinter

from tkinter import filedialog

import random

import cv2

# 弹出文件选择框，让用户选择要打开的图片

filepath = tkinter.filedialog.askopenfilename()

# 如果用户选择了一个文件，则加载该文件并显示

if filepath != '':

    # 读取图片

    image = cv2.imread(filepath)

    # 获取图像尺寸

    h, w = image.shape[:2]

    # 将BGR图像转换为RGB图像

    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

    # 尺寸变换

    if h > w:

        img = cv2.resize(image, (int(w / h * 640) , 640))

    else:

        img = cv2.resize(image, (640 , int(h / w * 640)))

    # 创建单色背景图像

    background = np.zeros((640, 640, 3), np.uint8)

    background[:] = (255, 0, 0)

    # 将图像居中放置

    x_offset = (640 - img.shape[1]) // 2

    y_offset = (640 - img.shape[0]) // 2

    background[y_offset:y_offset+img.shape[0], x_offset:x_offset+img.shape[1]] = img

    # 显示图片

    cv2.imshow('Result', background)

    cv2.waitKey(0)

    cv2.destroyAllWindows()

4、图像数据归一化

为了方便深度学习模型对图片数据进行推理，需要对读入图片进行归一化处理

# 将像素值转换为浮点数，并将其归一化到0~1之间

img = image.astype(np.float32) / 255.0   

# 将图像从HWC格式转换为CHW格式

img = np.transpose(img, (2, 0, 1))

# 将图像从CHW格式转换为NCHW格式，批次大小为1

img = np.expand_dims(img, axis=0)

5、模型推理

将修改好的图像数据，用onnx模型推理工具进行推理，得到n*8400二维数组的推理结果，n为数据集缺陷种类的数量

# onnx测试

session = onnxruntime.InferenceSession(onnx_model_path)

inputs = {session.get_inputs()[0].name: image}

logits = session.run(None, inputs)[0]

# 将输出转换为二维数组

# 将(1, 9, 8400)的形状转换为(9, 8400)的形状

output = logits.reshape((9, -1))

# 将二维数组转置为(8400, 9)的形状

output = output.transpose((1, 0))

6、推理结果筛选

9*8400二维数组转成8400*9方便处理，9列数据分别表示了检测框的中心x坐标、y坐标、宽度、高度、每个缺陷的置信系数

需要筛选出缺陷置信系数大于阈值的检测框

# 缺陷位置和缺陷置信系数

selected = np.zeros((0, 9))

# 缺陷置信系数

Thresh = np.zeros((0, 1))

# 缺陷类型

typ = np.zeros((0, 1), dtype=int)

i = 0

# 循环遍历每一行,筛选大于阈值的缺陷

for n in range(num.shape[0]):

    # 如果第4~8列中有大于阈值的元素

    if np.any(num[n, 4:] > threshold):

        # 将这一行添加到selected数组中

        selected = np.vstack((selected, num[n]))

        # 如果第4列大于阈值

        if selected[i, 4] == max(selected[i, 4:]):

            # 将type数组第i个元素赋值为缺陷类型0

            typ = np.vstack((typ, 0))

            # 将Thresh数组第i个元素赋值为缺陷类型0的阈值

            Thresh = np.vstack((Thresh, selected[i, 4]))

        elif selected[i, 5] == max(selected[i, 4:]):

            typ = np.vstack((typ, 1))

            Thresh = np.vstack((Thresh, selected[i, 5]))

        elif selected[i, 6] == max(selected[i, 4:]):

            typ = np.vstack((typ, 2))

            Thresh = np.vstack((Thresh, selected[i, 6]))

        elif selected[i, 7] == max(selected[i, 4:]):

            typ = np.vstack((typ, 3))

            Thresh = np.vstack((Thresh, selected[i, 7]))

        elif selected[i, 8] == max(selected[i, 4:]):

            typ = np.vstack((typ, 4))

            Thresh = np.vstack((Thresh, selected[i, 8]))

        i = i + 1

7、像素还原

将筛选结果还原成原图像素点坐标

# 获取selected数组的第0、1、2和3列，分别对应缺陷中心x，y坐标，宽度，高度

x_center = select[:, 0]

y_center = select[:, 1]

width = select[:, 2]

height = select[:, 3]

# 计算左上角坐标

x_min = x_center - width / 2

y_min = y_center - height / 2

# 创建bbox数组，将左上角坐标和宽度、高度存储进去

bbox = np.zeros((select.shape[0], 6))

bbox[:, 0] = x_min

bbox[:, 1] = y_min

bbox[:, 2] = width

bbox[:, 3] = height

# 将type数组和Thresh数组分别添加到bbox数组的第4列和第5列

bbox[:, 4] = typ

bbox[:, 5] = thresh

# 图像比例恢复

if h > w:

    bbox[:, :4] *= (h/640)

    bbox[:, 0] -= (h/2-w/2)

else:

    bbox[:, :4] *= (w/640)

    bbox[:, 1] -= (w/2-h/2)

# 将二维数组转换为二维列表

my_list = [list(row) for row in bbox]

# 将 0~4 列转换为 int 型，5 列转换为 float 型

for i in range(len(my_list)):

    for j in range(len(my_list[i])):

        if j < 5:

            my_list[i][j] = int(my_list[i][j])

        else:

            my_list[i][j] = float(my_list[i][j])

8、筛选重叠面积

根据阈值去除同一缺陷种类的重复检测框

i = 0

bbox = sorted(bbox, key=lambda x: x[3])

while i < (len(bbox) - 1):

    if bbox[i][4] == bbox[i + 1][4]:

        # 计算两个框之间的重叠面积

        x1 = max(bbox[i][0], bbox[i + 1][0])

        y1 = max(bbox[i][1], bbox[i + 1][1])

        x2 = min(bbox[i][0] + bbox[i][2], bbox[i + 1][0] + bbox[i + 1][2])

        y2 = min(bbox[i][1] + bbox[i][3], bbox[i + 1][1] + bbox[i + 1][3])

        intersection = (x2 - x1) * (y2 - y1)

        area1 = bbox[i][2] * bbox[i][3]

        area2 = bbox[i + 1][2] * bbox[i + 1][3]

        nms = 1 - intersection / (area1 + area2 - intersection)

        # print(nms) 

        # 去除多余框

        if nms < threshold and bbox[i][5] >= bbox[i + 1][5]:

            del bbox[i + 1]

        elif nms < threshold and bbox[i][5] < bbox[i + 1][5]:

            del bbox[i]

        elif nms > threshold:

            i = i + 1

    else:

        i = i + 1

9、标记缺陷

根据处理完的缺陷位置信息，使用方框将缺陷标记出来

# 循环遍历 bbox 列表中的每一行

for bbox in bbox_list:

    # 获取方框的左上角坐标和宽度、高度

    x, y, w, h = bbox[:4]

    # 随机生成颜色值

    color = (random.randint(0, 255), random.randint(0, 255), random.randint(0, 255))

    # 绘制方框

    cv2.rectangle(img, (x, y), (x + w, y + h), color, 2)

    # 在方框左上角上加上缺陷类型和置信系数

    defect_type = bbox[4]

    confidence = bbox[5]

    with open(typ_txt, 'r') as f:

        labels = f.read().splitlines()

    str_confidence = "{:.3f}".format(confidence)

    cv2.putText(img, labels[defect_type] + ' ' + str_confidence, (x, y - 5),

                cv2.FONT_HERSHEY_SIMPLEX, 2, color, 3)

# 保存绘制好方框的图像

cv2.imwrite('5.jpg', img)

# 创建窗口并显示完整图像

cv2.namedWindow("Image", cv2.WINDOW_NORMAL)

cv2.imshow("Image", img)

# 循环等待按键输入

while True:

    if cv2.waitKey(1) == 27:

        break

# 关闭窗口并释放资源

cv2.destroyAllWindows()

关注私信发源码。

目前在完成Python+onnx实时检测程序，敬请期待！

Windows10+Python+Yolov8+ONNX图片缺陷识别，并在原图中标记缺陷，有onnx模型则无需配置，无需训练。的更多相关文章

Python图像处理之图片文字识别（OCR）
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...
python实现中文图片文字识别--OCR about chinese text--tesseract
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库安装pillow: pip install pillow 安装tesseract: tesseract ...
PyQt（Python+Qt）学习随笔：model/view架构中的排序和代理模型QSortFilterProxyModel
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.概述在Model/View体系架构中,有两种方法可以进行排序:选择哪种方法取决于底层模型. 如 ...
使用 Python 识别并提取图像中的文字
1. 介绍介绍使用 python 进行图像的文字识别,将图像中的文字提取出来,可以帮助我们完成很多有趣的事情. 2. 必备工具 tesseract-ocr 下载地址: https://github. ...
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
手写数字识别 ----在已经训练好的数据上根据28*28的图片获取识别概率（基于Tensorflow,Python）
通过: 手写数字识别 ----卷积神经网络模型官方案例详解(基于Tensorflow,Python) 手写数字识别 ----Softmax回归模型官方案例详解(基于Tensorflow,Pytho ...
Python人工智能之图片识别，Python3一行代码实现图片文字识别
1.Python人工智能之图片识别,Python3一行代码实现图片文字识别 2.tesseract-ocr安装包和中文语言包注意:
用python实现数字图片识别神经网络--启动网络的自我训练流程，展示网络数字图片识别效果
上一节,我们完成了网络训练代码的实现,还有一些问题需要做进一步的确认.网络的最终目标是,输入一张手写数字图片后,网络输出该图片对应的数字.由于网络需要从0到9一共十个数字中挑选出一个,于是我们的网络最 ...
【Python项目】使用Face++的人脸识别detect API进行本地图片情绪识别并存入excel
准备工作首先,需要在Face++的主页注册一个账号,在控制台去获取API Key和API Secret. 然后在本地文件夹准备好要进行情绪识别的图片/相片. 代码介绍下所使用的第三方库 ——url ...
字符识别Python实现图片验证码识别
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...

随机推荐

使用sqlplus
1. 执行一个SQL脚本文件 SQL>start file_name SQL>@ file_name 可以将多条sql语句保存在一个文本文件中,这样当要执行这个文件中的所有的sql语句时, ...
SAP 传输请求释放及传输过程 SE10 STMS
T-CODE:SE10 STMS 1.传输请求释放首先通过SE10打开传输组织器. 点击[显示],可以看到待释放的请求. 此时将可修改请求中的请求,点击进行展开,可以看到子请求号和请求属性. 选中请 ...
利用CI机制管控jar依赖树
1. 现状·问题你还记得你排查jar冲突的付出么? 为了有效控制jar包更新带来的未知jar引入和变动,我们经常使用dependency-tree来查看依赖关系排查问题,通常是出现问题再被动分析和排 ...
AI绘画StableDiffusion实操教程：可爱头像奶茶小女孩(附高清图片)
本教程收集于:AIGC从入门到精通教程汇总今天继续分享AI绘画实操教程,如何用lora包生成超可爱头像奶茶小女孩放大高清图已放到教程包内,需要的可以自取. 欢迎来到我们这篇特别的文章--<A ...
多重断言插件之pytest-assume的简单使用
背景: pytest-assume是Pytest框架的一个扩展,它允许在单个测试用例中多次断言.通常情况下,当一个断言失败时,测试会立即停止执行,而pytest-assume允许我们继续执行剩余的断 ...
快手商品详情API接口如何使用
使用快手开的API接口获取商品详情,可按照以下步骤进行: 1.注册账号并创建应用注册开发者账号,并在账号后台中创建一个应用,获得AppKey和AppSecret等信息.这些信息是使用API接口访问快 ...
ShardingSphere实战
前言本文主要从sharding最新版本5.1.2版本入手搭建,按主键ID和时间进行分表. 本文主要介绍搭建过程,有兴趣了解shardingsphere的同学可以先自行查阅相关资料. shardsph ...
OpenCASCADE 显示对象设置不可选中
原有的选中模式代码: static Standard_Integer SelectionMode (const TopAbs_ShapeEnum theShapeType) { switch (the ...
解密Linux中的通用块层：加速存储系统，提升系统性能
通用块层通用块层是Linux中的一个重要组件,用于管理不同块设备的统一接口,减少不同块设备的差异带来的影响.它位于文件系统和磁盘驱动之间,类似于Java中的适配器模式,让我们无需关注底层实现,只需提 ...
springboot、jvm调优（设置运行的参数）
1.工具 jdk自带的工具位置: 找到窗口->应用程序 2.问题和方式在SpringBoot项目中,调优主要通过配置文件和配置JVM的参数的方式进行. 2.1 springboot修改配置文件 ...

Windows10+Python+Yolov8+ONNX图片缺陷识别，并在原图中标记缺陷，有onnx模型则无需配置，无需训练。

一、训练自己数据集的YOLOv8模型

1.博主电脑配置

2.深度学习GPU环境配置

3.yolov8深度学习环境准备

4.准备数据集

二、Python+Onnx模型进行图像缺陷检测，并在原图中标注

1、模型转换

2、查看模型结构

3、修改输入图片的尺寸

4、 图像数据归一化

5、模型推理

6、推理结果筛选

7、像素还原

8、筛选重叠面积

9、标记缺陷

Windows10+Python+Yolov8+ONNX图片缺陷识别，并在原图中标记缺陷，有onnx模型则无需配置，无需训练。的更多相关文章

随机推荐

热门专题

4、图像数据归一化