北京汽车官网经销商信息抓取(解析html标签)

1、网站地址http://www.baicmotor.com/dealer.php

2、使用firefox查看后发现，此网站的信息未使用json数据，而是简单那的html页面而已

3、使用pyquery库中的PyQuery进行html的解析

　　页面样式：

　　代码：　　

  def get_dealer_info(self):

         """获取经销商信息"""

         css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '

         #使用火狐浏览器中的自动复制css路径得到需要位置数据

         page = urllib2.urlopen(self.entry_url).read()

         #读取页面

         page = page.replace('<br />','&')

         page = page.replace('<br/>','&')

         #由于页面中的电话信息中使用了br换行，所以在抓取的时候会产生问题

         #问题是：如果取得一对标签中的数据，中包含<br/>,会出现值得到br之前的数据，而后的数据将得不到，原因个人认为是解析html是会任务/>结尾标准

         d = pq(page)

         #使用PyQuery解析页面，此处pq=PyQuery,因为from pyquery import PyQuery as pq

         dealer_list = []

         #创建列表用于提交到存储方法

         for dealer_div in d(css_select):

             #此处定位tr，具体数据在此标签中的td标签内

             p = dealer_div.findall('td')

             #此处p就是一个tr标签内，全部td数据的集合

             dealer = {}

             #此处的字典用于存储一个店铺的信息用于提交到列表中

             if len(p)==1:

                 #此处多哥if判断是用于对数据进行处理，因为一些格式不符合最终数据的要求，需要剔除，这个快的代码按需求而定

                 print '@'

             elif len(p)==6 :

                 strp = p[0].text.strip()

                 dealer[Constant.CITY] = p[1].text.strip()

                 strc = p[2].text.strip()

                 dealer[Constant.PROVINCE] = p[0].text.strip()

                 dealer[Constant.CITY] = p[1].text.strip()

                 dealer[Constant.NAME] = p[2].text.strip()

                 dealer[Constant.ADDRESSTYPE] = p[3].text.strip()

                 dealer[Constant.ADDRESS] = p[4].text.strip()

                 dealer[Constant.TELPHONE] = p[5].text.strip()

                 dealer_list.append(dealer)

             elif len(p)==5:

                 if p[0].text.strip() != u'省份':

                     dealer[Constant.PROVINCE] = strp

                     dealer[Constant.CITY] = p[0].text.strip()

                     dealer[Constant.NAME] = p[1].text.strip()

                     dealer[Constant.ADDRESSTYPE] = p[2].text.strip()

                     dealer[Constant.ADDRESS] = p[3].text.strip()

                     dealer[Constant.TELPHONE] = p[4].text.strip()

                     dealer_list.append(dealer)

             elif len(p)==3:

                 print '@@'

         print '@@@'

         self.saver.add(dealer_list)

         self.saver.commit()

4、最终代码执行成功，得到了相应数据并存入excel中

北京汽车官网经销商信息抓取(解析html标签)的更多相关文章

网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
转自原文网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...
Atitit.web的自动化操作与信息抓取 attilax总结
Atitit.web的自动化操作与信息抓取 attilax总结 1. Web操作自动化工具,可以简单的划分为2大派系: 1.录制回放 2.手工编写0 U' z; D! s2 d/ Q! ^1 2. 常 ...
网页信息抓取进阶支持Js生成数据 Jsoup的不足之处
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取 ...
Ajax异步信息抓取方式
淘女郎模特信息抓取教程源码地址: cnsimo/mmtao 网址:https://0x9.me/xrh6z 判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果 ...
网页信息抓取 Jsoup的不足之处 httpunit
今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取,相信Jsoup基本是首选的工具,完全的类JQuery操作,让人感觉很舒服.但是,今天我们就要说一说Jsoup的不足. 1.首先我们新 ...
接口测试——fiddler对soapui请求返回信息抓取
原文:接口测试——fiddler对soapui请求返回信息抓取背景:接口测试的时候,需要对接口的请求和返回信息进行查阅或者修改请求信息,可利用fiddler抓包工具对soapui的请求数据进行抓取或 ...
Python 东方财富网-股市行情数据抓取
东方财富网股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
汽车之家汽车品牌Logo信息抓取 DotnetSpider实战[三]
一.正题前的唠叨第一篇实战博客,阅读量1000+,第二篇,阅读量200+,两篇文章相差近5倍,这个差异真的令我很费劲,截止今天,我一直在思考为什么会有这么大的差距,是因为干货变少了,还是什么原因,一 ...

随机推荐

Testlink中分析结果的图表显示乱码
1.下载 tahoma.ttf 字体: 2.下载好后,我们将其放置到,testlink的安装目录的以下文件夹中: testlink/third_party/pchart/Fonts/ 接下来,修改配置 ...
Social networks and health: Communicable but not infectious
Harvard Men’s Health Watch Poet and pastor John Donne famously proclaimed “No man is an island.” It ...
使用 Environment Indicator 模块区分不同的 Drupal 环境
每个 Drupal 网站建设人员到了某个时期,都会有误将线上站点当做本地站点进行修改的经历.尤其是在浏览器中打开了几十个页面时,很容易忘记究竟哪个是哪个. Environment Indicator ...
慕课网-安卓工程师初养成-1-5 使用Eclipse开发Java程序
来源: http://www.imooc.com/video/1412 eclipse --- IDE 集成开发环境(IDE)是一类软件将程序开发环境和程序调试环境集合在一起,提高开发效率其他ID ...
MongoDB 2: 安装和使用
导读:上篇博客中简单介绍了MongoDB,本篇文章主要是介绍Mongo的安装和使用(环境为win8).(PS:这是一篇没什么技术含量的文章,仅是个人的笔记式文档)下一篇博客,将介绍Mongo使用过程中 ...
C/C++中产生随机数
可以使用srand()函数和rand()函数来产生随机数,其中srand()用来初始化随机数种子,rand()用来产生随机数.因为默认情况下随机数种子为1,而相同的随机数种子产生的随机数是一样的,失去 ...
jquery.css 最简单的用法
//判断验证码 if (pwd != "" && pwd != null) { $("#TxtPwd").css(& ...
按照 where id in （）排序
select * from ibs6_terminal_adv_inf where id in (16,14,15) order by find_in_set(id,'16,14,15')
字符串匹配KMP算法
1. 字符串匹配的KMP算法 2. KMP算法详解 3. 从头到尾彻底理解KMP
mysql在生产环境下有大量锁表,又不允许重启的情况下的处理办法
mysql在生产环境下有大量锁表,又不允许重启的情况下的处理办法满头大汗的宅鸟该怎么办呢? mysql -u root -e "show processlist"|grep -i ...

北京汽车官网经销商信息抓取(解析html标签)

北京汽车官网经销商信息抓取(解析html标签)的更多相关文章

随机推荐

热门专题