#coding = utf-8

'''

中文转经纬度

'''

import time,json

import urllib.request

from selenium import webdriver

from bs4 import BeautifulSoup

import pandas as pd

import numpy as np

AK ='C2hKkyF9fHbmzESq6dmSArZIzw8wEiS1'

table = pd.read_csv('./data/test.csv',encoding='utf-8')

outfp = open('./data/result_test.csv','w',encoding='utf-8')

class LoadData:

    def __init__(self):

        print("start")

        self.m_driver = webdriver.Chrome('D:\Program Files (x86)\ChromeDriver\chromedriver.exe')

        self.loc_result = []

    def get_uri(self, addr, city = ''):

        # try:

        server  = 'http://api.map.baidu.com/geocoder/v2/?'

        params = urllib.parse.urlencode({'address':addr,'city':city,'ak':AK,'output':'json'})

        self.m_driver.get(server+params)

        bs = BeautifulSoup(self.m_driver.page_source,'lxml')

        # temp = bs.prefix

        result = json.loads(bs.pre.get_text())['result']

        location = result.get('location')

        if( location != None ):

            lng = location.get('lng')

            lat = location.get('lat')

        return lng,lat

        # except:

        #     print("error addr:",addr)

        #     return np.NAN,np.NAN

    def get_lng_lat(self, addr):

        lng,lat = self.get_uri(addr)

        if((lng == None) or (lat == None)):

            print("error")

        self.loc_result.append([addr,lng,lat])

    def main(self):

        addr_list = table['ADDRESS'].tolist()

        [self.get_lng_lat(addr) for addr in addr_list]

        outfp.write(str(self.loc_result))

if __name__ == '__main__':

    tStart = time.clock()

    LD = LoadData()

    LD.main()

    tEnd = time.clock()

    print("%s s"%(tEnd - tStart))

附录：

chromdriver.exe与chrome版本映射及下载链接

https://blog.csdn.net/mmayanshuo/article/details/78962398

python 爬取媒体文件（使用chrome代理，启动客户端，有防火墙）的更多相关文章

python 爬取媒体文件（无防火墙）
#coding = utf-8 import requests import pandas as pd import os,time root_path = './根目录/' input_file = ...
scrapy --爬取媒体文件示例详解
scrapy 图片数据的爬取基于scrapy进行图片数据的爬取: 在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道配置文件中写入文件存储位置:IMAGES_STORE = './imgs ...
python爬取高匿代理IP（再也不用担心会进小黑屋了）
为什么要用代理IP 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
使用Python爬取代理ip
本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import tel ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...

随机推荐

【JS】---5 JS通过事件隐藏显示元素
JS通过事件隐藏显示元素在开发中,很多时候我们需要点击事件,才显示隐藏元素.那如何做到页面刚开始就把标签隐藏. 有两种方法: (1) display:none <div id=" ...
net core中引用GDAL
<Project Sdk="Microsoft.NET.Sdk"> <PropertyGroup> <OutputType>Exe</Ou ...
C# 学习笔记多态（二）抽象类
多态是类的三大特性之一,抽象类又是多态的实现方法之一.抽象类是什么呢,如果把虚方法比作一个盛有纯净水的杯子,那么此时的“纯净水”就是事先定义好的方法,我们可以根据不同的需求来改变杯子中所事先盛放的是“ ...
CSS覆盖问题的说明
最近在写css的时候,由于经常使用到很长的多级选择器,而碰到一些样式被覆盖或者覆盖不了的情况是相当的郁闷,所以专门花了一些时间对一些选择器做了对比测试.这里先说明一下,由于ie6不支持css2.0选择 ...
flask-script、flask-admin组件
目录 flask-script 安装使用自定制命令 flask-admin 安装简单使用将表模型注册到admin中如果有个字段是图片字段 flask-script 用于实现类似于django ...
updataStateByKey算子的使用
updataStateByKeyApp.scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Secon ...
Java前后端的跨域问题
1 前端127.0.0.1:8888 2 后端127.0.0.1:8080 前端和后端因为来自不同的网域,所以在http的安全协议策略下,不信任 3 解决方案,在springmvc的控制层加入@Cro ...
Java结构讲解
Java结构有顺序结构.选择结构和循环结构. 顺序结构: 是Java的基本结构,除非特别说明,否则按顺序一句一句执行:也是最简单的结构:它是任何一个算法都离不开的一种基本算法结构. 选择结构: 1.i ...
2.4 Scala函数式编程
一.函数定义与使用 1.函数的定义 2.匿名函数举例: Scala自动推断变量类型,不用声明: 一个下划线只能表示这一个参数的一次出现二.高阶函数定义:函数定义的括号里仍然是个函数的函数,叫作高 ...
基于图的异常检测（三）：GraphRAD
基于图的异常检测(三):GraphRAD 风浪一个快乐的数据玩家/风控/图挖掘 24 人赞同了该文章论文:<GraphRAD: A Graph-based Risky Account Det ...

python 爬取媒体文件（使用chrome代理，启动客户端，有防火墙）

chromdriver.exe与chrome版本映射及下载链接

python 爬取媒体文件（使用chrome代理，启动客户端，有防火墙）的更多相关文章

随机推荐

热门专题