Python爬网获取全国各地律师电话号

[本文出自天外归云的博客园]

从64365网站获取全国各地律师电话号，用到了python的lxml库进行对html页面内容的解析，对于xpath的获取和正确性校验，需要在火狐浏览器安装firebug和firepath插件。页面内容如下（目标是爬“姓名+电话”）：

代码如下：

# coding:utf-8

from lxml import etree

import requests,lxml.html,os

class MyError(Exception):

    def __init__(self, value):

        self.value = value

    def __str__(self):

        return repr(self.value)

def get_lawyers_info(url):

    r = requests.get(url)

    html = lxml.html.fromstring(r.content)

    phones = html.xpath('//span[@class="law-tel"]')

    names = html.xpath('//div[@class="fl"]/p/a')

    if(len(phones) == len(names)):

        list(zip(names,phones))

        phone_infos = [(names[i].text, phones[i].text_content()) for i in range(len(names))]

    else:

        error = "Lawyers amount are not equal to the amount of phone_nums: "+url

        raise MyError(error)

    phone_infos_list = []

    for phone_info in phone_infos:

        if(phone_info[1] == ""):

            #print phone_info[0],u"没留电话"

            info = phone_info[0]+": "+u"没留电话\r\n"

        #print phone_info[0],phone_info[1]

        else:

            info = phone_info[0]+": "+phone_info[1]+"\r\n"

        print info

        phone_infos_list.append(info)

    return phone_infos_list

def get_pages_num(url):

    r = requests.get(url)

    html = lxml.html.fromstring(r.content)

    result = html.xpath('//div[@class="u-page"]/a[last()-1]')

    pages_num = result[0].text

    if pages_num.isdigit():

        return pages_num

def get_all_lawyers(cities):

    dir_path = os.path.abspath(os.path.dirname(__file__))

    print dir_path

    file_path = os.path.join(dir_path,"lawyers_info.txt")

    print file_path

    if os.path.exists(file_path):

        os.remove(file_path)

    #input()

    with open("lawyers_info.txt","ab") as file:

        for city in cities:

            #file.write("City:"+city+"\n")

            #print city

            pages_num = get_pages_num("http://www.64365.com/"+city+"/lawyer/page_1.aspx")

            if pages_num:

                for i in range(int(pages_num)):

                    url = "http://www.64365.com/"+city+"/lawyer/page_"+str(i+1)+".aspx"

                    info = get_lawyers_info(url)

                    for each in info:

                        file.write(each.encode("gbk"))

if __name__ == '__main__':

    cities = ['beijing','shanghai','guangdong','guangzhou','shenzhen','wuhan','hangzhou','ningbo','tianjin','nanjing','jiangsu','zhengzhou','jinan','changsha','shenyang','chengdu','chongqing','xian']

    get_all_lawyers(cities)

这里对热门城市进行了爬网，输入结果如下（保存到了当前目录下的“lawyers_info.txt”文件中）：

Python爬网获取全国各地律师电话号的更多相关文章

Python爬网——获取安卓手机统计数据
[本文出自天外归云的博客园] 1. 在安卓网上对热门机型进行爬网,取前五十: # -*- coding: utf-8 -*- import requests,re from bs4 import Be ...
Docker最全教程之Python爬网实战(二十一)
Python目前是流行度增长最快的主流编程语言,也是第二大最受开发者喜爱的语言(参考Stack Overflow 2019开发者调查报告发布).笔者建议.NET.Java开发人员可以将Python发展 ...
python下载文件（图片）源码，包含爬网内容（爬url），可保存cookie
#coding=utf-8 ''' Created on 2013-7-17 @author: zinan.zhang ''' import re import time import httplib ...
Jsoup获取全国地区数据（省市县镇村）(续) 纯干货分享
前几天给大家分享了一下,怎么样通过jsoup来从国家统计局官网获取全国省市县镇村的数据.错过的朋友请点击这里.上文说到抓取到数据以后,我们怎么转换成我们想要格式呢?哈哈,解析方式可能很简单,但是有一点 ...
python爬取天气后报网
前言大二下学期的大数据技术导论课上由于需要获取数据进行分析,我决定学习python爬虫来获取数据.由于对于数据需求量相对较大,我最终选择爬取天气后报网,该网站可以查询到全国各地多年的数据,而且相对 ...
Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
Python 爬取赶集网租房信息
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse impor ...
全国315个城市，用python爬取肯德基老爷爷的店面信息
我觉得我生活在这世上二十多年里,去过最多的餐厅就是肯德基小时候逢生日必去,现在长大了,肯德基成了我的日常零食下班后从门前路过饿了便会进去点分黄金鸡块或者小吃拼盘早上路过,会买杯咖啡.主要快捷美味且饱腹 ...

随机推荐

BitTorrent DHT 协议中文翻译
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent},因此把 DHT 协议重新看了一遍. BitTorrent 使用"分布式哈希表"(DHT)来 ...
修复Magento SQLSTATE[23000]: Integrity constraint
magneto在意外情况下报错Magento SQLSTATE[23000]: Integrity constraint violation: 1062 Duplicate entry,出现这个问题最 ...
JS Note1
1.JavaScript 简史 JavaScript 诞生于1995 年.当时,它的主要目的是处理以前由服务器端语言(如Perl)负责的一些输入验证操作如今,JavaScript 的用途早已不再局限 ...
分享一组矢量图标–UX图标字体库
以下内容转自:http://ux.etao.com/,原文链接:http://ued.alimama.com/posts/219 科技日新月异的今天,市面上各种分辨率.各种显示精度的显示设备层出不穷, ...
python-study1 in hubei
1.安装好python后要配置环境变量(C:\Python27\Scripts---能找到pip.exe和easy_install.exe和C:\Python27---能找到python.exe) 2 ...
搜索引擎Solr系列（二）： Solr6.2.1 从MySql中导入数据
一:建立MySql测试表,如下图: 二:solr导入配置: 1.新建demo core文件夹,并修改managed-schema里面的配置文件建立索引字段: 2.把mysql-connector-j ...
Windows下使用VisualSVN Server搭建SVN服务器
使用 VisualSVN Server来实现主要的 SVN功能则要比使用原始的 SVN和 Apache相配合来实现源代码的 SVN管理简单的多,下面就看看详细的说明. VisualSVN Server ...
React 基础入门，基础知识介绍
React不管在demo渲染还是UI上,都是十分方便,本人菜鸟试试学习一下,结合阮一峰老师的文章,写下一点关于自己的学习react的学习笔记,有地方不对的地方,希望各位大牛评论指出: PS:代码包下载 ...
。。。欢乐捕鱼App WeX5 连接打包代理服务失败，请检查代理服务地址是否正确。。。
今天学习了WeX5,第一次使用,使用它打包一个Web App 欢乐捕鱼的时候,在最终打包生成Native App的时候突然报错了,说:"连接打包代理服务失败,请检查代理服务地址是否正确&qu ...
gulp 安装使用和删除
1.安装全局安装: npm intstall gulp -g (首先你得有node.js ,这个可以去node 官网下载个iso的镜像安装包,傻瓜式安装.自带npm) 安装在项目中: 首先 ...

Python爬网获取全国各地律师电话号

Python爬网获取全国各地律师电话号的更多相关文章

随机推荐

热门专题