去除爬虫采集到的\xa0、\u3000等字符

kingron 2024-10-08 07:15:21 原文

\xa0表示不间断空白符，爬虫中遇到它的概率不可谓不小，而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说，有以下几种方法可行：

使用`re.sub`

使用正则表达式可以轻松匹配所有空白字符，它对于Unicode字符也是有效的，比如：

>>> import re

>>> s = 'T-shirt\xa0\xa0短袖圆领衫,\u3000体恤衫\xa0买一件\t吧'

>>> re.sub('\s', ' ', s)

T-shirt  短袖圆领衫, 体恤衫 买一件 吧

不过该正则表达式会对所有字符都进行统一处理，可能会与原页面展示效果有所出入。

使用`translate`方法

str对象的translate方法也是去除这些字符串的好帮手，该方法具体用法可参考Python标准库，本处使用示例如下：

>>> inputstring = u'\n               Door:\xa0Novum    \t'

>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))

>>> output = inputstring.translate(move)

>>> output

             Door:Novum

利用`split`方法

将字符串分割再重组，这时候空白字符就会被pass掉了，不过该方法杀伤力太大，会导致所有空白消失，一定要慎用。

使用示例：

>>> s = 'T-shirt\xa0\xa0短袖圆领衫,\u3000体恤衫\xa0买一件\t吧'

>>> ''.join(s.split())

T-shirt短袖圆领衫,体恤衫买一件吧

使用`unicodedata`模块

Python标准库的unicodedata模块提供了normalize方法将Unicode字符转换为正常字符，该方法可算是处理这类情况最好的方法了，它会让字符回归到我们期望看到的样子，同时不损害其它正常的空白字符，而且还能还原其它非空白字符。normalize第一个参数指定字符串标准化的方式。 NFC表示字符应该是整体组成(比如可能的话就使用单一编码)，而NFD表示字符应该分解为多个组合字符表示。Python同样支持扩展的标准化形式NFKC和NFKD，它们在处理某些字符的时候增加了额外的兼容特性。使用该方法处理\xa0等字符的示例如下：

>>> import unicodedata

>>> s = 'T-shirt\xa0\xa0短袖圆领衫,\u3000体恤衫\xa0买一件\t吧'

>>> unicodedata.normalize('NFKC', s)

T-shirt  短袖圆领衫, 体恤衫 买一件	吧

参考

python中去掉字符串中的\xa0、\t、\n
unicodedata --- Unicode 数据库 — Python 3.7.5rc1 文档
str.translate

去除爬虫采集到的\xa0、\u3000等字符的更多相关文章

python爬虫采集
python爬虫采集最近有个项目需要采集一些网站网页,以前都是用php来做,但现在十分流行用python做采集,研究了一些做一下记录. 采集数据的根本是要获取一个网页的内容,再根据内容筛选出需要的数 ...
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...
基于Python爬虫采集天气网实时信息
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10- ...
抖音爬虫教程，python爬虫采集反爬策略
一.爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
php 爬虫采集
概述现在爬虫技术算是一个普遍的技术了,各个语言的爬虫百家争鸣,但是根据笔者自己的感觉还是python是主流.爬虫涉及到太多的东西,笔者并不是专业的爬虫工程师,只不过个人兴趣分享一下.由于笔者是php ...
python爬虫采集网站数据
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
python爬虫-采集英语翻译
http://fanyi.baidu.com/?aldtype=85#en/zh/drughttp://fanyi.baidu.com/?aldtype=85#en/zh/cathttp://fa ...
编写python爬虫采集彩票网站数据，将数据写入mongodb数据库
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
php 正则获取字符串中的汉字(去除字符串中除汉字外的所有字符)
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $list[$i]['iparr'], $matches); $list[$i]['iparr'] = join(' ...

随机推荐

myeclipse重写快捷键
shift+alt+s 点击Override/Implments methods
Dapr-状态管理
前言: 前一篇对Dapr的服务调用方式进行了解,本篇继续对状态管理进行了解. 一.状态管理-解决的问题在分布式应用程序中跟踪状态存在一下问题: 应用程序可能需要不同类型的数据存储. 访问和更新数据时 ...
千呼万唤，web人脸识别登录完整版来了，这样式我爱了
大家好,我是小富~ 在我最开始写文章的时候曾经写过一篇文章基于 Java 实现的人脸识别功能,因为刚开始码字不知道写点什么,就简单弄了个人脸识别的Demo. 但让我没想到的是,在过去的一年里有好多好 ...
springboot上传文件异常解决方案
配置文件加入: #配置文件传输 spring.servlet.multipart.enabled =true spring.servlet.multipart.file-size-threshold ...
.net core 和 WPF 开发升讯威在线客服系统：使用本地IP数据库实现访客来源快速定位，支持国外
本系列文章详细介绍使用 .net core 和 WPF 开发升讯威在线客服与营销系统的过程.本产品已经成熟稳定并投入商用. 免费使用 & 私有化部署:https://kf.shengxun ...
HelloWorld与java运行机制
HelloWorld 新建文件夹存放代码新建一个java文件文件后缀为.java Hello.java 注意文件拓展名改为java文件编写代码 public class Hello{ #类名 p ...
洛谷 P5071 - [Ynoi2015] 此时此刻的光辉（莫队）
洛谷题面传送门一道其实算得上常规的题,写这篇题解是为了总结一些数论中轻微(?)优化复杂度的技巧. 首先感性理解可以发现该问题强于区间数颜色问题,无法用常用的 log 数据结构维护,因此考虑分块/莫队 ...
P4550 收集邮票与灵异的期望
考前复习一下期望相关知识,这题的期望还是很巧妙的. 设 \(f_{i}\) 表示已经买到了 \(i\) 张不同的邮票的期望步数,\(g_{i}\) 表示表示已经买到了 \(i\) 张不同的邮票的期望花 ...
linux 网络配置管理
[1]网络配置基础 (1)用户既可以通过命令行的方式,也可以通过友好的图形界面,轻松完成网络配置. (2)实现Linux网络配置的惟一目标就是修改系统中众多的网络配置文件, 如/etc/interfa ...
【模板】二分图最大匹配（匈牙利算法）/洛谷P3386
题目链接 https://www.luogu.com.cn/problem/P3386 题目大意给定一个二分图,其左部点的个数为 \(n\),右部点的个数为 \(m\),边数为 \(e\),求其最大 ...