Python3爬虫爬取淘宝商品数据

这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易，页面信息的存放都是以静态的方式直接嵌套的页面上的，很容易找到。主要困难是将信息从HTML源码中剥离出来，数据和网页源码结合的很紧密，剥离数据有一定的难度。

然后将获取的信息写入excel表格保存起来，这次只爬取了前面10页的内容。在运行代码的过程中发现，30页后面的数据有问题，出现了手机价格为0的情况，这是不符合实际的，码也没有写错误处理的代码。

这次先写个粗略的，有点凌乱的感觉，下次有时间再系统的整理整理吧。

这是爬取的数据的效果图：

这是程序的代码：

import requests

import re

from xlwt import Workbook

import xlrd

import time

def key_name( number ):

    #获取页面的内容并返回

    name = '手机'

    URL_1 = "https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20170905&stats_click=search_radio_all%3A1&js=1&imgfile=&q="

    URL_2 = "&suggest=0_1&_input_charset=utf-8&wq=u&suggest_query=u&source=suggest&p4ppushleft=5%2C48&s="

    URL = ( URL_1 + name + URL_2 + str(number))

    #print(URL)

    res = requests.get( URL )

    return res.text

def find_date( text):

    #根据整个页面的信息，获取商品的数据所在的HTML源码并放回

    reg = r',"data":{"spus":\[({.+?)\]}},"header":'

    reg = re.compile(reg)

    info = re.findall(reg, text)

    return info[0]

def manipulation_data( info, N, sheet ):

    #解析获取的HTML源码，获取数据

    Date = eval(info)

    for d in Date:

        T = " ".join([t['tag'] for t in d['tag_info']])

        #print(d['title'] + '\t' + d['price'] + '\t' + d['importantKey'][0:len(d['importantKey'])-1] + '\t' + T)

        sheet.write(N,0,d['title'])

        sheet.write(N,1,d['price'])

        sheet.write(N,2,T)

        N = N + 1

    return N

def main():

    book = Workbook()

    sheet = book.add_sheet('淘宝手机数据')

    sheet.write(0,0,'品牌')

    sheet.write(0,1,'价格')

    sheet.write(0,2,'配置')

    book.save('淘宝手机数据.xls')

    #k用于生成链接，每个链接的最后面的数字相差48.

    #N用于记录表格的数据行数，便于写入数据

    k = 0

    N = 1

    for i in range(10+1):

        text = key_name( k + i * 48 )

        info = find_date(text)

        N = manipulation_data( info ,N, sheet )

        book.save('淘宝手机数据.xls')

        print('下载第' + str(i) + '页完成')

if __name__ == '__main__':

    main()

Python3爬虫爬取淘宝商品数据的更多相关文章

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
python3爬取淘宝商品(失效)
最近有人反映淘宝的搜索功能要登录才能用,原先的直接爬取的方法挂了.稍微把之前的代码修改了一下,登录采用最简单的复制cookie来解决. 顺便说一下,这只是根据搜索的的索引界面获取的信息,并未深入的获取 ...

随机推荐

JavaScript-跨浏览器事件处理程序（EventUtil）
事件操作对象: var EventUtil= { //添加事件 addHandler: function (element, type, handler) { if (element.addEvent ...
while else ,pass执行else,break不执行else
count = 0while count <=5: count += 1 if count == 3:pass print("Loop".count) else: print ...
谷歌F12获取接口信息
Parity game POJ - 1733 带权并查集
#include<iostream> #include<algorithm> #include<cstdio> using namespace std; <& ...
问题 D: 八皇后
#include <cstdio> #include <vector> #include <algorithm> using namespace std; cons ...
FLUSH+RELOAD技术
FLUSH+RELOAD技术是PRIME+PROBE技术的变体,攻击间谍进程和目标进程的共享页.在共享页中,间谍进程可以确保一个特定的内存的映射从整个cache的层级中剔除.间谍进程就是使用这一点去监 ...
windows批量删除同名进程
这里以删除chromedriver.exe 黑窗口执行命令:taskkill /F /IM chromedriver.exe 任务管理器发现,内存使用迅速指数下降
linux centos7环境下安装apache2.4+php5.6+mysql5.6 安装及踩坑集锦
linux centos7环境下安装apache2.4+php5.6+mysql5.6 安装及踩坑集锦(一) 一.Linux下安装MySQL 1.下载下载地址:http://dev.mysql.co ...
让Surface Shader不受光照的明暗影响
直接上码 Shader "Custom/3DVideo" { Properties { _Color (,,,) _MainTex ("Albedo (RGB)" ...
0002 增加APP配置
创建好工程后的第一步就是配置APP,目前有两个APP,配置APP的步骤如下: 01 APP目录配置 01.1 在APP目录下创建Templates目录,用于存储模板文件 01.2 在APP目录下创建v ...

Python3爬虫爬取淘宝商品数据

Python3爬虫爬取淘宝商品数据的更多相关文章

随机推荐

热门专题