[python]爬取手机号码前缀和地区信息

概述

使用python爬取手机号码前缀7位、区号和地区。

小网站不容易，对爬虫也挺友好，就不放链接了。

代码

import requests

from lxml import etree

from fake_useragent import UserAgent

import time

def parse_page(url,header,cookie):

    """ 解析url，并写到文件中 """

    resp = requests.get(url,headers=header,cookies=cookie)

    html = etree.HTML(resp.text)

    filename = "phonenum.txt"

    # 爬取手机前缀

    phone_number_1 = html.xpath("//tr[@class='even']/td[1]/a/text()")

    # 爬取所在地区

    phone_number_1_city = html.xpath("//tr[@class='even']/td[2]/text()")

    # 爬取地区区号

    phone_number_1_citynum = html.xpath("//tr[@class='even']/td[4]/text()")

    phone_number_2 = html.xpath("//tr[@class='odd']/td[1]/a/text()")

    phone_number_2_city = html.xpath("//tr[@class='odd']/td[2]/text()")

    phone_number_2_citynum = html.xpath("//tr[@class='odd']/td[4]/text()")

    # 使用zip()组合爬取结果，并追加到文件中

    for i,j,k in zip(phone_number_1,phone_number_1_citynum,phone_number_1_city):

        with open(filename,"a",encoding="utf-8") as f_obj:

            f_obj.write(f"{i},{j},{k}\n")

    for x,y,z in zip(phone_number_2,phone_number_2_citynum,phone_number_2_city):

        with open(filename,"a",encoding="utf-8") as f_obj:

            f_obj.write(f"{x},{y},{z}\n")

def cookie_to_dict(cookie_src):

    cookie_dict = {}

    for i in cookie_src.split('; '):

        cookie_dict[i.split('=')[0]] = i.split('=')[1]

    return cookie_dict

def main():

    """ 执行主程序 """

    ua = UserAgent()

    # 地址很简单，直接range

    for page in range(1,1234):

        # 网站地址

        phone_url = "...........%d"%page

        phone_headers = {"User-Agent": ua.random}

        # 填写自己的cookie

        cookie_src = ""

        cookie = cookie_to_dict(cookie_src)

        parse_page(phone_url,phone_headers,cookie)

        print(f"page: {page}")

        # 暂停2秒，防止目标网站宕机

        time.sleep(2)

if __name__ == '__main__':

    main()

结果

爬取了463600条数据，部分数据如下：

...

...

1999451,0776,广西 百色

1999449,0772,广西 来宾

1999447,0774,广西 梧州

1999445,0778,广西 河池

1999443,0776,广西 百色

1999441,0771,广西 南宁

1999438,0931,甘肃 兰州

1999436,0931,甘肃 兰州

1999434,0943,甘肃 白银

1999432,0943,甘肃 白银

1999430,0943,甘肃 白银

1999418,0931,甘肃 兰州

1999416,0931,甘肃 兰州

1999414,0941,甘肃 甘南

1999412,0941,甘肃 甘南

...

...

[python]爬取手机号码前缀和地区信息的更多相关文章

使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬取“美团美食”汕头地区的所有店铺信息
一.目的获取美团美食每个店铺所有的评论信息,并保存到数据库和本地二.实现步骤获取所有店铺的poiId 首先观察详情页的url,后面是跟着一串数字的,而这一串数字代表着每个店铺特有的id号,我们称 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
用 Python 爬取网易严选妹子内衣信息，探究妹纸们的偏好
网易商品评论爬取分析网页评论分析进入到网易精选官网,搜索“文胸”后,先随便点进一个商品. 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页Python入门到精通学 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取所有微信好友的信息
''' 爬取所有T信好友的信息 ''' import itchat from pandas import DataFrame itchat.login() friends=itchat.get_fri ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
python 爬取B站视频弹幕信息
获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath.进入你所观看的视频 ...

随机推荐

【已解决】使用代理后，登陆微软账号提示0x800190001
今天晚上想要登录Onedrive同步文件时,发现怎么都登陆不上去,报出的错误代码是0x80190001,在网上搜索了各种方法,重置网络,重置Onedrive都没什么用,甚至把Onedrive重装了一遍 ...
Django admin管理工具的使用、定制及源码解析
admin组件使用 Django 提供了基于 web 的管理工具. Django 自动管理工具是 django.contrib 的一部分.你可以在项目的 settings.py 中的 INSTALLE ...
PHP代码审计——ThinkPHP基础
一.ThinkPHP概述 1. ThinPHP是一个轻量级的PHP框架,旨在提供快速开发Web应用程序的工具和资源.它采用了MVC(Model-View-Controller)架构,使开发人员可以更好 ...
adb基本命令
adb基本命令 adb查看当前设备 adb devices adb覆盖安装app adb install -r 包地址 adb查看当前运行app的包名 adb shell "dumpsys ...
Windows常用的 CMD 命令合集
常用的 CMD 命令合集: 基础命令 dir:列出当前目录中的文件和子目录. cd:更改当前目录.例如,cd Documents 将当前目录更改为 Documents 文件夹. md 或 mkdir: ...
JS逆向实战14——猿人学第二题动态cookie
声明本文章中所有内容仅供学习交流,抓包内容.敏感网址.数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 目标网站 https:// ...
2023-05-29：给你一个由 n 个正整数组成的数组 nums 你可以对数组的任意元素执行任意次数的两类操作如果元素是偶数，除以 2 例如，如果数组是 [1,2,3,4] 那么你可以对最后一
七.设计算法,仅使用三次实数乘法即可完成复数 a+bi和c+di 相乘.算法需接收a.b.c和d 为输入,分别生成实部 ac-bd 和虚部ad+bc. 文心一言: 可以使用如下算法来计算复数 a+bi ...
ASP.NET Core 6框架揭秘实例演示[37]：重定向的N种实现方式
在HTTP的语义中,重定向一般指的是服务端通过返回一个状态码为3XX的响应促使客户端像另一个地址再次发起请求,本章将此称为"客户端重定向".既然有客户端重定向,自然就有服务端重定向 ...
idea设置退出软件提示
进入设置
Pinot2的无人机传感器和摄像头
目录 1. 引言 2. 技术原理及概念 2.1 基本概念解释 2.2 技术原理介绍 2.3 相关技术比较无人机传感器和摄像头在Pinot 2中得到广泛应用,其目的是为Pinot 2提供全面的传感器和 ...

[python]爬取手机号码前缀和地区信息

概述

代码

结果

[python]爬取手机号码前缀和地区信息的更多相关文章

随机推荐

热门专题