长安铃木经销商爬取（解析xml、post提交、python中使用js代码）

1、通过火狐浏览器，查找大长安铃木官网中关于经销商的信息主要在两个网页中

http://www.changansuzuki.com/khfw/xml/pro.xml 地域信息

http://www.changansuzuki.com/khfw/sqcx.php 查询经销商具体信息

2、第一步解析地域信息

上面的图为xml中的格式

3、解析XML文件主要代码

     def get_area_list(self):

         """获取地域省份和城市名称字典"""

         page = urllib2.urlopen(self.xml_url).read()

         area_list = {}

         root = ElementTree.fromstring(page)

         #读取xml格式文本

         for onep in root:

             province =  onep.get('name')

             #父标签中的name数据（province中）

             city_list = []

             for onec in onep:

                 #子标签中的name数据（city中）

                 city = onec.get('name')

                 city_list.append(city)

             area_list[province] = city_list

             #返回一个省份与城市关系的字典，即：{省份名称：[城市名称1，城市名称2,···]}

         return area_list

3、得到每个城市经销商信息主要代码

  def get_post_data(self,province=None,city=None):

         '''得到每个城市经销商信息'''

         city1 = city.encode('utf8')

         #将数据转码为utf8

         province1 = province.encode('utf8')

         ctxt = PyV8.JSContext()

         ctxt.enter()

         #使用python执行js代码的准备

         func = ctxt.eval('''(function(){return (new Date())})''')

         #通过代码得到js格式的时间

         params = {  'act':'',

                     'city':city1,

                     'date':func(),

                     'name':'',

                     'pro':province1,

                     'ty':'',

                   }

         #整理post数据

         data = urllib.urlencode(params)

         req = urllib2.Request(self.index_url,data)

         page =urllib2.urlopen(req).read().decode('utf8')

         #通过提交post数据得到相应的结果数据

         if page != 'sorry':

             #判断结果是否符合需求

             dealers = page.split('@@')

             i = 0

             dealerlist =[]

             while i < len(dealers):

                 dealerinfo = {}

                 j = 0

                 dealer = dealers[i].split('|')

                 dealerinfo[Constant.PROVINCE] = province

                 dealerinfo[Constant.CITY] = city

                 dealerinfo[Constant.NAME] = dealer[0]

                 dealerinfo[Constant.ADDRESS] = dealer[1]

                 dealerinfo[Constant.SALETEL] = dealer[2]

                 if len(dealer) ==6:

                     dealerinfo[Constant.URL] = dealer[3]

                 elif len(dealer) == 5:

                     dealerinfo[Constant.URL] = ''

                 else:

                     print '###############'

                     print dealer[0] +' ' +province

                     print '###############'

                 dealerlist.append(dealerinfo)

                 i+=1

             self.saver.add(dealerlist)

4、最终整合方法实现功能

     def deal_dealers_info(self):

         areas = self.get_area_list()

         for area in areas:

             province = area

             #得到省份名称

             for area_city in areas[area]:

                     city = area_city

                     #得到城市名称

                     self.get_post_data(province,city)

                     #调用经销商处理方法

         self.saver.commit()

         #保存excel

长安铃木经销商爬取（解析xml、post提交、python中使用js代码）的更多相关文章

写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
一个爬取Bing每日壁纸的python脚本
1. 背景 Bing搜索每天的背景图片有些比较适合做桌面,但是有的提供下载有的不提供下载.每天去点击下载又不太方便,所以第一次学习了一下python爬虫怎么写,写的很简单. 2. 相关技术 2.1 P ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Scrapy 爬取BOSS直聘关于Python招聘岗位
年前的时候想看下招聘Python的岗位有多少,当时考虑目前比较流行的招聘网站就属于boss直聘,所以使用Scrapy来爬取下boss直聘的Python岗位. 1.首先我们创建一个Scrapy 工程 s ...
16-多线程爬取糗事百科（python+Tread）
https://www.cnblogs.com/alamZ/p/7414020.html 课件内容 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月17日 ...
Python 爬取 "王者荣耀.英雄壁纸" 过程中的矛和盾
1. 前言学习爬虫,最好的方式就是自己编写爬虫程序. 爬取目标网站上的数据,理论上讲是简单的,无非就是分析页面中的资源链接.然后下载.最后保存. 但是在实施过程却会遇到一些阻碍. 很多网站为了阻止爬 ...
node.js 解析xml BOM问题（xmlreader sax.js）
Email:longsu2010 at yeah dot net 之前写了两篇文章关于node.js解析xml,说的是xmlreader,文章如下 node.js解析xml(xmlreader) no ...
JAVA解析XML文件(DOM,SAX,JDOM,DOM4j附代码实现)
1.解析XML主要有四种方式 1.DOM方式解析XML(与平台无关,JAVA提供,一次性加载XML文件内容,形成树结构,不适用于大文件) 2.SAX方式解析XML(基于事件驱动,逐条解析,适用于只处理 ...
解析xml字符串时报“前言中不允许有内容”错误。
一,问题出现经过: j基于java语言webservic服务端接收客户端传来的xml字符串用解析时总报:org.dom4j.DocumentException: Error on line 1 o ...

随机推荐

js里一些经典的算法
//1.找出某个数字在一组数组内的存不存在如果存在找出他所在的索引. function indexOf(arr,item){ var i; if(Array.prototype.indexOf){ ...
js中将字符串转换成json的方式
1.eval 方式解析,实际中用的还是比较少 function evalJson(str){ var json = eval('(' + str + ')'); return json; } 2.使用 ...
oracle函数、包、变量的定义和使用、重点”结构体和数组”
函数实例1:输入雇员的姓名,返回该雇员的年薪 create function fun1(spName varchar2) ,); begin +nvl(comm,) into yearSal fro ...
android开发之路13（实际开发常见问题及解决办法ING）
1.DDMS下无法浏览SDcard? 在做音乐播放器的时候,想通过eclipse中的DDMS视图将音频文件push到sd卡中,发现总是报错 :Failed to push selection: Rea ...
mac 下curl的使用
curl用起来非常方便,但是老是记不住各个参数的含义,还是记录下来方便查询吧这东西现在已经是苹果机上内置的命令行工具之一了,可见其魅力之一斑 1)二话不说,先从这里开始吧! curl http:// ...
【模拟，时针分针秒针两两夹角】【没有跳坑好兴奋】hdu - 5387 （多校#8 1008）
算是最好写的一道题了吧,最近模拟没手感,一次过也是很鸡冻o(*￣▽￣*)o 注意事项都在代码里,没有跳坑也不清楚坑点在哪~ #include<cstdio> #include<cst ...
poj 2373 单调队列优化背包
思路:我们用单调队列保存2*b<=i-j<=2*a中的最大值.那么队列头就是最大值,如果队头的标号小于i-2*b的话,就出队,后面的肯定用不到它了. #include<iostrea ...
poj 2182 树状数组
这题对于O(n^2)的算法有很多,我这随便贴一个烂的,跑了375ms. #include<iostream> #include<algorithm> using namespa ...
HTML5和Web Apps框架和方法
单页: 1jQuery Mobile 该框架以其基于AJAX的导航系统和可使用主题的ThemeRoller设计而闻名.支持Android,ios,Windows Phone,webOs等.编程模式为C ...
Delphi 获取进程路径及命令行参数
Delphi 获取进程路径及命令行参数, 但有的进程获取时会报错,不知为啥 type PVOID64 = UINT64; _UNICODE_STRING = packed record Length ...

长安铃木经销商爬取（解析xml、post提交、python中使用js代码）

长安铃木经销商爬取（解析xml、post提交、python中使用js代码）的更多相关文章

随机推荐

热门专题