北京汽车官网经销商信息抓取(解析html标签)

1、网站地址http://www.baicmotor.com/dealer.php

2、使用firefox查看后发现，此网站的信息未使用json数据，而是简单那的html页面而已

3、使用pyquery库中的PyQuery进行html的解析

　　页面样式：

　　代码：　　

  def get_dealer_info(self):

         """获取经销商信息"""

         css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '

         #使用火狐浏览器中的自动复制css路径得到需要位置数据

         page = urllib2.urlopen(self.entry_url).read()

         #读取页面

         page = page.replace('<br />','&')

         page = page.replace('<br/>','&')

         #由于页面中的电话信息中使用了br换行，所以在抓取的时候会产生问题

         #问题是：如果取得一对标签中的数据，中包含<br/>,会出现值得到br之前的数据，而后的数据将得不到，原因个人认为是解析html是会任务/>结尾标准

         d = pq(page)

         #使用PyQuery解析页面，此处pq=PyQuery,因为from pyquery import PyQuery as pq

         dealer_list = []

         #创建列表用于提交到存储方法

         for dealer_div in d(css_select):

             #此处定位tr，具体数据在此标签中的td标签内

             p = dealer_div.findall('td')

             #此处p就是一个tr标签内，全部td数据的集合

             dealer = {}

             #此处的字典用于存储一个店铺的信息用于提交到列表中

             if len(p)==1:

                 #此处多哥if判断是用于对数据进行处理，因为一些格式不符合最终数据的要求，需要剔除，这个快的代码按需求而定

                 print '@'

             elif len(p)==6 :

                 strp = p[0].text.strip()

                 dealer[Constant.CITY] = p[1].text.strip()

                 strc = p[2].text.strip()

                 dealer[Constant.PROVINCE] = p[0].text.strip()

                 dealer[Constant.CITY] = p[1].text.strip()

                 dealer[Constant.NAME] = p[2].text.strip()

                 dealer[Constant.ADDRESSTYPE] = p[3].text.strip()

                 dealer[Constant.ADDRESS] = p[4].text.strip()

                 dealer[Constant.TELPHONE] = p[5].text.strip()

                 dealer_list.append(dealer)

             elif len(p)==5:

                 if p[0].text.strip() != u'省份':

                     dealer[Constant.PROVINCE] = strp

                     dealer[Constant.CITY] = p[0].text.strip()

                     dealer[Constant.NAME] = p[1].text.strip()

                     dealer[Constant.ADDRESSTYPE] = p[2].text.strip()

                     dealer[Constant.ADDRESS] = p[3].text.strip()

                     dealer[Constant.TELPHONE] = p[4].text.strip()

                     dealer_list.append(dealer)

             elif len(p)==3:

                 print '@@'

         print '@@@'

         self.saver.add(dealer_list)

         self.saver.commit()

4、最终代码执行成功，得到了相应数据并存入excel中

北京汽车官网经销商信息抓取(解析html标签)的更多相关文章

网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
转自原文网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...
Atitit.web的自动化操作与信息抓取 attilax总结
Atitit.web的自动化操作与信息抓取 attilax总结 1. Web操作自动化工具,可以简单的划分为2大派系: 1.录制回放 2.手工编写0 U' z; D! s2 d/ Q! ^1 2. 常 ...
网页信息抓取进阶支持Js生成数据 Jsoup的不足之处
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取 ...
Ajax异步信息抓取方式
淘女郎模特信息抓取教程源码地址: cnsimo/mmtao 网址:https://0x9.me/xrh6z 判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果 ...
网页信息抓取 Jsoup的不足之处 httpunit
今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取,相信Jsoup基本是首选的工具,完全的类JQuery操作,让人感觉很舒服.但是,今天我们就要说一说Jsoup的不足. 1.首先我们新 ...
接口测试——fiddler对soapui请求返回信息抓取
原文:接口测试——fiddler对soapui请求返回信息抓取背景:接口测试的时候,需要对接口的请求和返回信息进行查阅或者修改请求信息,可利用fiddler抓包工具对soapui的请求数据进行抓取或 ...
Python 东方财富网-股市行情数据抓取
东方财富网股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
汽车之家汽车品牌Logo信息抓取 DotnetSpider实战[三]
一.正题前的唠叨第一篇实战博客,阅读量1000+,第二篇,阅读量200+,两篇文章相差近5倍,这个差异真的令我很费劲,截止今天,我一直在思考为什么会有这么大的差距,是因为干货变少了,还是什么原因,一 ...

随机推荐

android View 自动 GONE 问题
首先说一下 view visibility VISIBLE.INVISIBLE.GONE的区别: 可见(visible) XML文件:android:visibility="visible& ...
Solr数据库连接之多表关联
Solr环境配置好后,有很多时候我们需要把数据库里的数据添加到索引里,这时就需要配置跟数据库的连接,下面我们看配置的步骤. 1. 配置 solrconfig.xml (在slor 主目录 core ...
Ubuntu上部署Ghost博客
所有文章搬运自我的个人主页:sheilasun.me 刚刚成功把自己的ghost博客部署到Linode VPS上了,在这里回顾并顺便整理一下从购买域名到部署代码到服务器的整个过程. 购买域名万网或者 ...
Android开发-API指南-Android简介
Introduction to Android 英文原文:http://developer.android.com/intl/zh-cn/guide/index.html 采集日期:2014-4-16 ...
python分析log
最近做的一个项目,系统log下会生成如下的log(部分): [-- ::] Processing File transfer configured from ship to shore.... [-- ...
MSP430F149学习之路——时钟2
代码一: /************************** 功能:LED每隔1秒闪烁一次 ****************************/ #include <msp430x14 ...
java.lang.NoSuchMethodException
这个异常遇到过若干次,提示信息也比较清楚的指示出它的特点,当无法找到某一特定方法时,就会抛出该异常! 我所遇到的抛出此异常的情景主要有以下两种: 1:对应的JAVA类中没有对应的属性,也就是说在页面的 ...
华为OJ平台——计算字符串的相似度
题目描述: 对于不同的字符串,我们希望能有办法判断相似程度,我们定义了一套操作方法来把两个不相同的字符串变得相同,具体的操作方法如下: 1 修改一个字符,如把“a”替换为“b”. 2 增加一个字符,如 ...
ios如何获取位置权限
获取当前位置需要改plist文件在plist文件加入 NSLocationWhenInUseUsageDescription 字段 /** 初始化一个管理器对象 */ locationMan ...
CLRS:master theory in complexity of algorithm
T(n)=aT(n/b)+f(n); where we can interpret n/b to mean either floor(b/n) or ceil(b/n), Then T (n) has ...

北京汽车官网经销商信息抓取(解析html标签)

北京汽车官网经销商信息抓取(解析html标签)的更多相关文章

随机推荐

热门专题