Python数据清洗：提取爬虫文本中的电话号码

步骤索引

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：101677771

效果展示

原始数据
清洗数据

注意事项

每个号码前面带‘+’，而原始文本中有些号码带Fax前缀，为传真号码，需要剔除掉

剔除方法
首先将文本全部转换为小写，再将’ fax’（注意fax前有空格）转换成’ Fax’，则只要遇到大写F就说明紧接着的号码是传真号码。
接下来我们设置一个传真标志FaxFlg，默认值：0，遍历所有字符，一旦遇到了’F’，就将标志打开，表示下一个遇到的‘+’后面的号码我们需要舍弃掉，舍弃后又重新见FaxFlg设为0，继续遍历。

代码

# -*- coding: utf-8 -*-

"""

Created on Tue Aug 18 09:46:30 2020

@author: Songyou Han

"""

import os

import csv

# 获取cvs文件列表函数

def file_name(file_dir):

    files = []

    for root, dirs, file in os.walk(file_dir):

        files = file #当前路径下所有非目录子文件

    return files

# 电话号码提取函数

def ExtractRawData(source='raw_datas',destination='extract_phone'):

    files = file_name(source)

    dict = {}

    for filename in files:

        file = source+"/"+filename

        datas = csv.reader(open(file,'r',encoding = "utf-8"))

        data_list = []

        for item in datas:

            data_list.append(item[0])

        dict.update({filename:data_list})

    return dict

def ExtractPhoneNumber(rawData):

    PhoneNumbersDict = {}

    for key,value in rawData.items():

        PhoneNumbersList = []

        for row in value:

            row = row.lower().replace(" fax"," Fax").replace(" ","")

            IndexList = []

            FaxFlg = 0

            for i in range(len(row)):

                if row[i] in ['F']:

                    FaxFlg = 1

                    continue

                if row[i] in ['+']:

                    if FaxFlg == 0:

                        IndexList.append(i)

                    else:

                        FaxFlg = 0

            PhoneNumbers = []

            for index in IndexList:

                i = index

                PhoneNumber = '+' # 存放单个电话号码的盒子

                while row[i+1] in ['0','1','2','3','4','5','6','7','8','9']:

                    PhoneNumber = PhoneNumber + row[i+1]

                    i += 1

                if PhoneNumber not in PhoneNumbers:

                    PhoneNumbersList.append(PhoneNumber)

                    PhoneNumbers.append(PhoneNumber)

            print("从以下文本中提取到号码（已去重）："+str(PhoneNumbers))

            print("........................")

            print(row)

            print("========================")

        PhoneNumbersDict.update({key:PhoneNumbersList})

    return PhoneNumbersDict

def WritePhone(FileName,PhoneNumbersList):

    f = open('extract_phone/(号码抽取)'+FileName,'w+')

    for phone in PhoneNumbersList:

        f.write("'"+phone+"'")

        f.write("\n")

    f.close()

rawData = ExtractRawData('raw_datas','extract_phone')

PhoneNumbersDict = ExtractPhoneNumber(rawData)

print("\n\n小伙子，你的电话号码提取完了，现在开始存入extract_phone文件夹中。。。。。。\n")

for key,value in PhoneNumbersDict.items():

    WritePhone(key,value)

    print("存入文件：\t(号码抽取)"+str(key))

print("\n存好了！！！")

Python数据清洗：提取爬虫文本中的电话号码的更多相关文章

python学习笔记——爬虫学习中的重要库urllib
1 urllib概述 1.1 urllib库中的模块类型 urllib是python内置的http请求库其提供了如下功能: (1)error 异常处理模块 (2)parse url解析模块 (3)r ...
【python】提取sql语句中的表名
前言最近刚学python,写一个小工具时需要提取sql语句中表名,查询一番后找到一篇文章挺不错的,mark一下 PS.那篇文章是转载的,且没有标注转载自哪里正文 import ply.lex as ...
Python：Scrap爬虫过程中遇到的各种错误
1.KeyError: 'Spider not found: BDS' 原因:settings.py中缺少了几项与spider名字配置相关的项: BOT_NAME = 'BDS' SPIDER_MOD ...
NLP（十五）让模型来告诉你文本中的时间
背景介绍在文章NLP入门(十一)从文本中提取时间中,笔者演示了如何利用分词.词性标注的方法从文本中获取时间.当时的想法比较简单快捷,只是利用了词性标注这个功能而已,因此,在某些地方,时间的识别 ...
用python正则表达式提取字符串
在日常工作中经常遇见在文本中提取特定位置字符串的需求.python的正则性能好,很适合做这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣的可以看re的教程. 提取一般分两种 ...
python正则表达式提取字符串
用python正则表达式提取字符串在日常工作中经常遇见在文本中提取特定位置字符串的需求.python的正则性能好,很适合做这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣 ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
NLP入门（十一）从文本中提取时间
在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,本文将介绍如何从文本中有效地提取时间. 举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权 ...

随机推荐

yum自建离线仓库
1.步骤 centOS的安装包,完整版最好--everyhing版本解压缩将文件夹内Packages文件导入系统执行命令如下: 1. mv ./Packages/ /mnt/ 2. create ...
echarts全国疫情统计可视化地图（第一阶段）
DBUtil.java package com.helloechart; import java.sql.Connection; import java.sql.DriverManager; impo ...
Iconfont的代码使用
1.Iconfont官网相关阅读: Iconfont-阿里巴巴矢量图标库 Iconfont-阿里巴巴矢量图标库-代码使用 2.下载代码注意到把鼠标悬停到图标上,会出现三个按钮. 我们点击" ...
Vue 引用图片的三种方式
首先给图片地址绑定变量 <template> <img :src="imgUrl"> </template> 在script中设置变量 < ...
js 自定义属性操作
自定义属性操作 element.属性获取内置属性值 element.getAttribute("属性") 我们自己添加的属性叫自定义属性 element. ...
javascript Math对象、Date对象笔记
Math对象 Math 是一个内置对象, 它具有数学常数和函数的属性和方法.不是一个函数对象. Math数学对象不是构造函数使用的时候不需要new来调用,可以直接使用里面的属性和方法 ...
Prometheus监控神器-Alertmanager篇(1)
本章节主要涵盖了Alertmanager的工作机制与配置文件的比较详细的知识内容,由浅入深的给大家讲解. 警报一直是整个监控系统中的重要组成部分,Prometheus监控系统中,采集与警报是分离的.警 ...
React的useEffect与useLayoutEffect执行机制剖析
引言 useEffect和useLayoutEffect是React官方推出的两个hooks,都是用来执行副作用的钩子函数,名字类似,功能相近,唯一不同的就是执行的时机有差异,今天这篇文章主要是从这两 ...
Windows下，配置VS Code的Java开发环境
Windows下,配置VS Code的Java开发环境前言最近痴迷于VS Code的开发环境配置,原因就在于它的轻巧和免费,还能当一个非常棒的文本编辑器.如果之前你配置过VS Code并且失败了, ...
用Unity3D实现太阳系仿真
用Unity3D模拟太阳系仿真模拟要求写一个程序,实现一个完整的太阳系, 其他星球围绕太阳的转速必须不一样,且不在一个法平面上. 操作步骤 1.创建如下结构 sun 里包括8大行星, 并且设置好距 ...