一、概述

数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。

定义

指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

脱敏规则

可以包括但不限于:

替换:例如将身份证号的部分数字替换为“*”或随机数。

随机化:例如生成与真实数据格式相符但与原始数据无关的新数据。

固定模式脱敏:例如保留电话号码的区号和最后几位,其余部分替换。

加密:对数据进行不可逆或可逆加密,仅在必要时解密。

假名化:用虚构的名字替换真实姓名。

二、数据脱敏开发

这里直接使用python代码开发,使用fastmcp框架。

server.py

from fastmcp import FastMCP
import re mcp = FastMCP("desensitize", port=9000) class DataMasker:
def __init__(self):
pass def mask_phone_number(self, phone_number):
"""
对手机号码进行脱敏处理,将中间四位替换为 *
"""
if len(phone_number) == 11:
return phone_number[:3] + "****" + phone_number[7:]
return phone_number def mask_email(self, email):
"""
对邮箱地址进行脱敏处理,只显示邮箱名前两位和域名
"""
if "@" in email:
username, domain = email.split("@")
return username[:2] + "****@" + domain
return email def mask_id_card(self, id_card):
"""
对身份证号码进行脱敏处理,只显示前四位和后四位
"""
if len(id_card) == 18:
return id_card[:4] + "**********" + id_card[14:]
return id_card def mask_address(self, address):
"""
对地址进行脱敏处理,模糊化门牌号和房间号
例如,将 "1栋" 替换为 "**栋","101室" 替换为 "***室"
"""
# 使用正则表达式
desensitized_address = re.sub(r"(\d+)栋", r"**栋", address)
desensitized_address = re.sub(r"(\d+)室", r"***室", desensitized_address)
return desensitized_address @mcp.tool()
def desensitize_text(text: str) -> str:
"""
脱敏文本信息
"""
masker = DataMasker()
# 匹配手机号
phone_pattern = r"\d{11}"
phones = re.findall(phone_pattern, text)
for phone in phones:
masked_phone = masker.mask_phone_number(phone)
text = text.replace(phone, masked_phone) # 匹配邮箱
email_pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
emails = re.findall(email_pattern, text)
for email in emails:
masked_email = masker.mask_email(email)
text = text.replace(email, masked_email) # 匹配身份证号
id_card_pattern = r"\d{18}"
id_cards = re.findall(id_card_pattern, text)
for id_card in id_cards:
masked_id_card = masker.mask_id_card(id_card)
text = text.replace(id_card, masked_id_card) # 匹配地址
address_pattern = r"([\u4e00-\u9fa5]+省)?([\u4e00-\u9fa5]+市)?([\u4e00-\u9fa5]+区)?([\u4e00-\u9fa5]+街道)?(\d+[\u4e00-\u9fa5]+)?(\d+[\u4e00-\u9fa5]+)?"
addresss = re.findall(address_pattern, text) # 如果没有找到地址,返回原始文本
if not addresss:
return text # 对每个匹配的地址进行脱敏处理
for address_parts in addresss:
# 将匹配的地址部分组合成完整的地址
address = "".join([part for part in address_parts if part])
if address:
# print("address",address)
masked_address = masker.mask_address(address)
text = text.replace(address, masked_address) return text if __name__ == "__main__":
mcp.run(transport="sse")

运行代码

python3 server.py

三、数据脱敏测试

打开Cherry Studio客户端,添加MCP服务器

添加智能体

将智能体添加到助手

开启MCP

聊天窗口,输入用户信息:

我的手机号是13812345678,我的邮箱是test@example.com,我的身份证号是123456789012345678,我的地址是北京市海淀区中关村大街1栋101室

可以看到返回的json,已经做了脱敏处理。

但是客户端返回的信息,有点不全。这是因为AI模型做了处理。因为AI模型认为这些敏感信息返回不安全,做了2次加工。

不过不影响,最终结果还是做了数据脱敏处理即可。

MCP数据脱敏应用开发的更多相关文章

  1. Oracle 11g数据脱敏

    Oracle 11g数据脱敏 前言 最近开发人员有个需求,导一份生产库的数据到测试库. 由于生产数据安全需要,需要并允许对导出的数据进行加密脱敏处理. 关于加密和脱敏 个人理解, 加密是通过一系列规则 ...

  2. Springboot 配置文件、隐私数据脱敏的最佳实践(原理+源码)

    大家好!我是小富- 这几天公司在排查内部数据账号泄漏,原因是发现某些实习生小可爱居然连带着账号.密码将源码私传到GitHub上,导致核心数据外漏,孩子还是没挨过社会毒打,这种事的后果可大可小. 说起这 ...

  3. SpringBoot进阶教程(七十五)数据脱敏

    无论对于什么业务来说,用户数据信息的安全性无疑都是非常重要的.尤其是在数字经济大火背景下,数据的安全性就显得更加重要.数据脱敏可以分为两个部分,一个是DB层面,防止DB数据泄露,暴露用户信息:一个是接 ...

  4. 微软Connect(); 2017大会梳理:Azure、数据、AI开发工具

    在今天召开的 Connect(); 2017 开发者大会上,微软宣布了 Azure.数据.AI 开发工具的内容.这是第一天的 Connect(); 2017 的主题演讲. 在开场视频中霍金又来了.你记 ...

  5. 《MySQL Workbench数据建模与开发》

    <MySQL Workbench数据建模与开发> 基本信息 原书名:MySQL Workbench:Data Modeling & Development 原出版社: McGraw ...

  6. java 数据脱敏

    所谓数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护.在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份 ...

  7. Oracle汉字用户名数据脱敏长度不变,rpad函数使用

    信息安全考虑,有时需要对用户名称进行数据脱敏. 针对Oracle数据库,进行取数数据脱敏处理 脱敏规则: 长度小于9个字符,只保留前3个汉字与后3个汉字,中间全部由*填充. 长度9个字及以上及奇数,隐 ...

  8. php 数据脱敏显示

    /** * 数据脱敏 * @param $string 需要脱敏值 * @param int $start 开始 * @param int $length 结束 * @param string $re ...

  9. 聚合数据 iOS 项目开发实战:条码查询器

    记录下,聚合数据 iOS 项目开发实战:条码查询器:视频地址:http://www.jikexueyuan.com/course/324.html 条码查询API:https://www.juhe.c ...

  10. Azure、数据、AI开发工具

    Azure.数据.AI开发工具 在今天召开的 Connect(); 2017 开发者大会上,微软宣布了 Azure.数据.AI 开发工具的内容.这是第一天的 Connect(); 2017 的主题演讲 ...

随机推荐

  1. Kotlin:【set集合】集合创建、可变集合mutableSetOf、集合转换(List转换成Set,去掉重复元素)、distinct快捷去重函数、数组

  2. web40 无参数rce

    点击查看代码 <?php /* # -*- coding: utf-8 -*- # @Author: h1xa # @Date: 2020-09-04 00:12:34 # @Last Modi ...

  3. 一. 初始 Redis(快速入门-00)

    一. 初始 Redis(快速入门-00) @ 目录 一. 初始 Redis(快速入门-00) Redis 概述: 关系型数据库(如 MySQL ) 问题 NoSQL 数据库(非关系性数据库) 最后: ...

  4. Jenkins+Coverage的代码覆盖率集成实践

    Jenkins+Coverage的代码覆盖率集成实践 一.工具介绍 Jenkins: Jenkins是一个开源的.基于Java开发的持续集成工具,它可以帮助开发人员自动化构建.测试和部署软件项目. C ...

  5. Q:浏览器打开控制台报错:net::ERR_CONTENT_LENGTH_MISMATCH 206

    一.问题描述 F12查看浏览器的控制台,提示net::ERR_CONTENT_LENGTH_MISMATCH 206 (Partial Content) ,如下图, HTTP状态码206表示" ...

  6. FLink怎么做压力测试和监控?

    我们一般碰到的压力来自以下几个方面: 一,产生数据流的速度如果过快,而下游的算子消费不过来的话,会产生背压问题.背压的监控可以使用Flink Web UI(localhost:8081)来可视化监控, ...

  7. 基于iscsi存储池

    命令行 [root@kvm1 ~]# virsh pool-define-as --name stor2 --type iscsi \ > --source-host 192.168.114.1 ...

  8. IGM机器人维修的关键环节

    在现代科技领域,机器人已经成为不可或缺的一部分,它们广泛应用于各个行业,包括制造业.服务业.医疗.科研等.对于任何机器人来说,定期的维护和修理都是必不可少的.这不仅可以确保机器人正常工作,还可以延长其 ...

  9. WPF调用FishSpeech的Demo

    写了一个FishSpeech的教程:使用FishSpeech进行语音合成推理 - 天命小猪 - 博客园 研究了一下如何调用服务器API,朗读文本. 经过调研,决定使用NAudio库播放音频.遇到了一些 ...

  10. Processing多窗口程序范例(三)

    再来一例~另一种叠加方式呈现...看图: 程序 主程序: package syf.demo.multiwindow3; import processing.core.PApplet; import p ...