python爬虫系列之爬京东手机数据

python抓京东手机数据

作者:vpoet

mail:vpoet_sir@163.com

 #coding=utf-8

 import urllib2

 from lxml import etree

 import re

 if __name__ == '__main__':

     main_url = """http://search.jd.com/Search?keyword=%%E6%%89%%8B%%E6%%9C%%BA&enc=utf-8&suggest=0#keyword=%%E6%%89%%8B%%E6%%9C%%BA&enc=utf-8&qrst=1&ps=addr&rt=1&stop=1&sttr=1&cid3=655&click=3-                655&psort=3&page=%s"""

     page_num = 1

     for page in range(page_num):

         html_url = main_url % page

         Res = urllib2.urlopen(html_url)

         Htm = Res.read()

         #print Htm

         tree = etree.HTML(Htm);

         #phone_names = tree.xpath("//div[@id='plist']/ul/li/div[@class='lh-wrap']/div[@class='p-name']/a/text()")   

     #x = 1

         #for phone_name in phone_names:

             #print phone_name+'\t'+str(x)+'\n'

         #x=x+1

     #phone_pic_urls = tree.xpath("//div[@class='lh-wrap']/div[@class='p-img']/a/img")

     #for phone_pic_url in phone_pic_urls:

         #print phone_pic_url.values()[3]

     #phone_prices = tree.xpath("//div[@class='p-price']/strong")

     phone_prices = tree.xpath("//*[@id='plist']/ul[@class='list-h clearfix']/li/div/div[@class='p-price']/strong") 

     x = 1

         for phone_price in phone_prices:

             print phone_price.values()[1]+'\t'+str(x)+'\n'

         x = x + 1

     #phone_comments = tree.xpath("//div[@class='extra']/a/text()")  

         #for phone_comment in phone_comments:

             #print "评价数"

         #comment_num = re.findall(r'.{2}(\d+).{3}',phone_comment)

         #print comment_num[0]

     #phone_good_comments = tree.xpath("//div[@class='extra']/span[@class='reputation']/text()")  

         #for phone_good_comment in phone_good_comments:

             #print "好评率"

         #comment_good_num = re.findall(r'\((\d{2})%.{2}\)',phone_good_comment)

         #print comment_good_num[0]

     print "over"

这个没写完，先保存在这里。有时间再完成

python爬虫系列之爬京东手机数据的更多相关文章

一个月入门Python爬虫，轻松爬取大规模数据
Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
Python爬虫：如何爬取分页数据？
上一篇文章<Python爬虫:爬取人人都是产品经理的数据>中说了爬取单页数据的方法,这篇文章详细解释如何爬取多页数据. 爬取对象: 有融网理财项目列表页[履约中]状态下的前10页数据,地址 ...
python爬虫28 | 你爬下的数据不分析一波可就亏了啊，使用python进行数据可视化
通过这段时间小帅b教你从抓包开始到数据爬取到数据解析再到数据存储相信你已经能抓取大部分你想爬取的网站数据了恭喜恭喜但是数据抓取下来要好好分析一波最好的方式就是把数据进行可视化这样 ...
Python爬虫系列之爬取美团美食板块商家数据（二）
今天为大家重写一个美团美食板块小爬虫,说不定哪天做旅游攻略的时候也可以用下呢.废话不多说,让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: argpar ...
Python爬虫系列之爬取美团美食板块商家数据（一）
主要思路目的: 根据输入的城市名,爬取该城市美团美食板块所有商家的数据.数据包括: 店名.评分.评论数量.均价.地址, 并将这些数据存入Excel中. 最后尝试对爬取到的数据做一个简单的分析. 克服 ...
python爬虫系列之爬取多页gif图像
python爬取多页gif图像作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Java实现爬取京东手机数据
Java实现爬取京东手机数据最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上.项目没什么太 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

【编译原理】语法分析LL(1)分析法的FIRST和FOLLOW集
近来复习编译原理,语法分析中的自上而下LL(1)分析法,需要构造求出一个文法的FIRST和FOLLOW集,然后构造分析表,利用分析表+一个栈来做自上而下的语法分析(递归下降/预测分析),可是这个FIR ...
【实用技术】DreamWeaver常用快捷键
文件菜单新建文档 Ctrl+N 打开一个HTML文件 Ctrl+O 或者将文件从[文件管理器]或[站点]窗口拖动到[文档]窗口中在框架中打开 Ctrl+Shift+O 关闭 Ctrl+W 保存 C ...
POJ3260:The Fewest Coins(混合背包)
Description Farmer John has gone to town to buy some farm supplies. Being a very efficient man, he a ...
[Git] --no-verify
Somtimes, the project might set the commit message guide line, if your commit doesn't meet the requi ...
Hacker（六）----黑客藏匿之地--系统进程
windows系统中,进程是程序在系统中的依次执行活动.主要包括系统进程和程序进程两种. 凡是用于完成操作系统各种功能的各种进程都统称为系统进程: 而通过启动应用程序所产生的进程则统称为程序进程. 由 ...
oracle 10g 数据库字符集更改
1.更改数据库字符集为GBK SHUTDOWN IMMEDIATE; STARTUP MOUNT EXCLUSIVE; ALTER SYSTEM ENABLE RESTRICTED SESSION;A ...
C#/.NET笔试题
1.简述 private. protected. public. internal.protected internal 访问修饰符和访问权限 private : 私有成员, 在类的内部才可以访问. ...
8.0 BOM对象
主要的掌握的知识结构图 1 Window 2 控制窗口.框架.弹出窗口 3 利用location对象中的页面信息 4 使用 navigator 对象了解浏览器 1.1 BOM的核心对象是window, ...
NFinal ajax
AJAX返回我们经常会用到ajax,当我们想返回json时,需要这样写. context.Response.ContentType="application/json"; con ...
HTML - EMail链接
HTML - EMail链接 HTML Email 标签在标签中,提供一个email地址,你就可以让用户发送邮件,格式是: <a href= "mailto:jack@kingyar ...

python爬虫系列之爬京东手机数据

python爬虫系列之爬京东手机数据的更多相关文章

随机推荐

热门专题