【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序

第一步：

先分析这个url，”？“后面的都是它的关键字，requests中get函数的关键字的参数是params，post函数的关键字参数是data，

关键字用字典的形式传进去，这样我们就可以自己改关键字去搜索别的东西或者是搜索别的页面，我对手机比较感兴趣所以

就爬取了关于手机的页面。

第二步：

直接先给出源代码，然后细节再慢慢的说。

# encoding:utf8

import requests

import re

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

def printGoodsList(list):

    list = sorted(list,key=lambda x: x[1],reverse=True)

    m = '{:16}\t{:8}'

    print(m.format("商品名称", "商品价格"))

    for i in list:

        print(m.format(i[0],i[1]))

def main():

    phone = []

    data={

        'q':'手机',

        's':0

        }

    url = 'https://s.taobao.com/search'

    for i in range(0,48*10,48):

        data['s'] = i

        try:

            r = requests.get(url,params=data)

            r.encoding=r.apparent_encoding

            html = r.text

            reg = r'"title":"(.*?)".*?"price":"(.*?)"'

            phonelist = re.findall(reg, html)

        except:

            print("失败")

        for a in phonelist:

            if(int(a[1])>4000):

                phone.append((a[0],int(a[1])))

    printGoodsList(phone)

main()

从main函数里看：

先定义一个phone的列表存储关于手机的信息。

然后定义一个data的字典，里面是url关键字的信息。

用一个for循环爬取多页的信息。

for循环里：

 r = requests.get(url,params=data)

 r.encoding=r.apparent_encoding

 html = r.text

这些是获取页面信息。

reg = r'"title":"(.*?)".*?"price":"(.*?)"'

phonelist = re.findall(reg, html)

用最简单的正则表达式 .*? 提取出我们想要的手机的名字跟手机的价格（正则表达式还没有深入去学习），有小伙伴想

获取其他的信息也可以自己去试试匹配你想要提取的信息，然后把提取出来的信息存放到phonelist里。获取网页信息当中要用

try except，捕捉出现的异常。

for a in phonelist:

            if(int(a[1])>4000):

                phone.append((a[0],int(a[1])))

再用一个for循环把提取到的信息添加在phone列表里（以元组的形式存放进去，因为方便之后的排序），当然你也可以再筛选其中的信息，

我就是筛选了价格高于四千的手机，看下土豪用的都是些什么手机。

然后调用printGoodsList函数，接下来我们说说这个函数：

def printGoodsList(list):

    list = sorted(list,key=lambda x: x[1],reverse=True)

    m = '{:16}\t{:8}'

    print(m.format("商品名称", "商品价格"))

    for i in list:

        print(m.format(i[0],i[1]))

函数里的一个行用到的是sorted函数，这个函数有几个参数，第一个是可迭代的对象，第二个是具有两个参数的比较的函数，第三个是进行

比较的元素，只有一个参数，最后一个参数是排序规则，默认值是False，从小到大的排序。

我用到的是lambda这个匿名函数，然后把排序后的信息赋值给list

后面就是输出我们排好序的信息。

【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序的更多相关文章

python 网路爬虫（二）爬取淘宝里的手机报价并以价格排序
今天要写的是之前写过的一个程序,然后把它整理下,巩固下知识点,并对之前的代码进行一些改进. 今天要爬取的是淘宝里的关于手机的报价的信息,并按照自己想要价格来筛选. 要是有什么问题希望大佬能指出我的错误 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Python网络爬虫（6）--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...
Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
1. 儿歌多多APP简单分析今天是手机APP数据爬取的第一篇案例博客,我找到了一个儿歌多多APP,没有加固,没有加壳,没有加密参数,对新手来说,比较友好,咱就拿它练练手,熟悉一下Fiddler和夜神 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...

随机推荐

NOI2019 回家路线 DP
「NOI2019」回家路线链接 loj 思路 f[i][j]第i个点,时间为j,暴力转移复杂度O(m*t),好像正解是斜率优化,出题人太不小心了233 代码 #include <bits/s ...
web前端开发高级
前端高效开发框架技术与应用 Vue 基础Vue 框架简介 MVX 模式介绍Vue 框架概述如何使用 Vue.js 基础语法实例对象生命周期模板语法计算属性Methods 方法渲染列表渲染条件渲染 ...
linux下调试C#代码
参考两位大神的帖子: https://blog.csdn.net/soband_xiang/article/details/82914195 https://blog.csdn.net/weixin_ ...
拦截RestTemplate的请求
RestTemplate一般用于方法内部请求调用,请求报错时难以调试,所以可以为RestTemplate加拦截器进行调试,具体操作如下: 拦截器LoggingClientHttpRequestInte ...
WDM驱动改可手动加卸载的NT驱动
WDM驱动改可手动加卸载的NT驱动测试工具:osrloader 把一个WDM类型的驱动改成可动态加载/卸载,需要做以下2个修改: 1. 把SOURCES文件夹中的DRIVERTYPE=WDM去掉 2 ...
论文阅读 | Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition
源地址 arXiv:1712.07465: Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition ...
JMH java基准测试
Measure, don’t guess! JMH适用场景 JMH只适合细粒度的方法测试原理编译时会生成一些测试代码,一般都会继承你的类 maven依赖 <dependencies> ...
增量ETL (长周期指标) 优化方案
在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求,类似于如下: 1. 统计每个城市(过去30天)用户浏览次数: 统计每个城市(本年)用户浏览次数: 统计每个城市(历史至今)用户浏览次数: ...
(转) centos7 RPM包之rpm命令
原文:https://blog.csdn.net/capecape/article/details/78529159 RPM包与源码包的区别1.软件包分类源码包:C源代码包 rpm包:编译之后的二进 ...
window 安装使用npm
[安装步骤] 一.安装node.js 1.前往node.js官网下载并安装工具,这里安装路径选到D盘,D:\nodejs 安装完毕后在命令行输入以下命令测试是否安装成功,正确会出现版本号 npm -v ...

【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序

【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序的更多相关文章

随机推荐

热门专题