Python 爬取淘宝商品信息和相应价格

！只用于学习用途！

plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)

：获得商品价格和view_price字段，并保存在plt中

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

：获得商品名称和raw_price字段，并保存在tlt中　

price = eval(plt[i].split(':')[1])

：使用冒号分隔键值对，去掉前面的view_price字段，只获取其中价格部分

tplt = "{:4}\t{:8}\t{:16}"

：第一个位置给出大小为4，第二个位置大小为8，第三个位置大小为16

import requests

import re

def getHTMLText(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""

def parsePage(ilt, html):

    try:

        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)

        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

        for i in range(len(plt)):

            price = eval(plt[i].split(':')[1])

            title = eval(tlt[i].split(':')[1])

            ilt.append([price , title])

    except:

        print("")

def printGoodsList(ilt):

    tplt = "{:4}\t{:8}\t{:16}"

    print(tplt.format("序号", "价格", "商品名称"))

    count = 0

    for g in ilt:

        count = count + 1

        print(tplt.format(count, g[0], g[1]))

def main():

    goods = '书包'

    depth = 3

    start_url = 'https://s.taobao.com/search?q=' + goods

    infoList = []

    for i in range(depth):

        try:

            url = start_url + '&s=' + str(44*i)

            html = getHTMLText(url)

            parsePage(infoList, html)

        except:

            continue

    printGoodsList(infoList)

main()

Python 爬取淘宝商品信息和相应价格的更多相关文章

利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
selenium＋pyquery爬取淘宝商品信息
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
selenium+phantomjs+pyquery 爬取淘宝商品信息
from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...

随机推荐

Lintcode247 Segment Tree Query II solution 题解
[题目描述] For an array, we can build a Segment Tree for it, each node stores an extra attribute count t ...
python函数学习（一）
1.parse_known_args()和parse_args()函数该函数为命令行解析函数,调用时需要import argparse(命令行选项.参数和子命令的解析器). 以下内容摘自python ...
NOIP2015 D2T3 洛谷2680 BZOJ4326 运输计划解题报告
前言:个人认为这是历年NOIP中比较简单的最后一题了,因此将自己的思路与大家分享. 题目大意: 给一棵无根树,给出m条路径.允许将树上的一条边的权值改为0.求m条路径长度最大值的最小值.n,m< ...
python全栈开发-Day7 文件处理
python全栈开发-Day7 文件处理一 .文件操作一 .介绍计算机系统分为:计算机硬件,操作系统,应用程序三部分. 我们用python或其他语言编写的应用程序若想要把数据永久保存下来,必 ...
java 10 中 var关键字用法
引用:https://mp.weixin.qq.com/s/n1tcJ0CywSi0j-YycGPwxg what java10引入了局部变量折断 var用于声明局部变量. 如var user=new ...
redhat7.2静默安装Oracle11.2.0.4
redhat7.2静默安装Oracle11.2.0.4我们将oracle安装到/opt/oracle目录下,后面的环境变量则以此为基础.一.设置主机hosts映射vi /etc/hosts[plain ...
Orcle查询优化改写-----单表查询
1.将空值转化为实际值 coalesce 返回第一个不是null的参数 2.查询满足多个条件的行需要注意,对于多个条件组合,要使用括号,这样在更改维护语句时可以不吸烟再考虑优先级问题,而且可以很容 ...
每天学习点jquery
一.jquery选择器 1.根据给定的ID匹配一个元素(如果选择器中包含特殊字符,可以用两个斜杠转义)id选择器举例:html代码 <div id="notMe">& ...
爬虫（BeautifulSoup--select--class的选择）
<div class="item name" title="中央公园"> <a href="/Attraction_Review-g ...
使用Java编译思想
1.Java常见的注释有哪些,语法是怎样的? 1)单行注释用//表示,编译器看到//会忽略该行//后的所文本 2)多行注释/* */表示,编译器看到/*时会搜索接下来的*/,忽略掉/* */之间的文本 ...

Python 爬取淘宝商品信息和相应价格

Python 爬取淘宝商品信息和相应价格的更多相关文章

随机推荐

热门专题