python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件

第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息

（1）分析网页源码

打开淘宝，输入关键字“python”，然后搜索，显示如下搜索结果

从url连接中可以得到搜索商品的关键字是“q=”，所以我们要用的起始url为：https://s.taobao.com/search?q=python

然后翻页，先跳到第二页，url变为：

再跳到第三页，url变为：

经过对比发现，翻页后，变化的关键字是s，每次翻页，s便以44的倍数增长（可以数一下每页显示的商品数量，刚好是44）

所以可以根据关键字“s=”，来设置爬取的深度（爬取多少页）

右键查看源码：

分析商品名称和商品价格分别由哪个关键字控制：

商品名称可能的关键字是“title”和“raw_title”，进一步多看几个商品的名称，发现选取“raw_title”比较合适；商品价格自然就是“view_price”(通过比对淘宝商品展示页面)；

所以商品名称和商品价格分别是以 "raw_title":"名称" 和 "view_price":"价格"，这样的键/值对的形式展示的。

（2）分析如何实现

与上一个例子爬取“最好大学排名”不同，淘宝商品信息不像之前的大学信息是以HTML格式嵌入的，这里的商品信息并未以HTML标签的形式处理数据，而是直接以脚本语言放进来的，所以不需要用BeautifulSoup来解析，直接用正则表达式提取关键字信息即可

（3）提取信息

写个demo，看看是如何一步步解析信息的

# coding:utf-8

import requests

import re

goods = '水杯'

url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)

html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)  # 正则提取商品名称

plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)  # 正则提示商品价格

print(tlist)

print(plist)

print(type(plist))  #  正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

去掉列表中的键，只留下值，也就是去掉每组数据的“raw_title”和“view_price”

print('第一个商品的键值对信息：', tlist[0])  # 查看第一个商品的键值对信息

a = tlist[0].split(':')[1]  # 使用split()方法以":"为切割点，将商品的键值分开，提取值，即商品名称

print('第一个商品的名称', a)

print(type(a))  # 查看a的类型

b = eval(a)  # 使用eval()函数，去掉字符串的引号

print('把商品名称去掉引号后', b)  # 查看去掉引号后的效果

print(type(b))  # 查看b的类型

利用for循环，把每个商品的名称和价格组成一个列表，然后把这写列表再追加到一个大列表中：

goodlist = []

for i in range(len(tlist)):

    title = eval(tlist[i].split(':')[1])  # eval()函数简单说就是用于去掉字符串的引号

    price = eval(plist[i].split(':')[1])

    goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表，然后把所有商品组成的列表追加到一个大列表中

    print(goodlist)

完整代码：

# coding: utf-8

import requests

import re

# def getHTMLText(url):

#     try:

#         r = requests.get(url, timeout=30)

#         r.raise_for_status()

#         r.encoding = r.apparent_encoding

#         return r.text

#     except:

#         return ""

#

#

# def parsePage(ilt, html):

#     try:

#         plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)

#         tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)

#         for i in range(len(plt)):

#             price = eval(plt[i].split(':')[1])

#             title = eval(tlt[i].split(':')[1])

#             ilt.append([price, title])

#     except:

#         print()

#

#

# def printGoodsList(ilt):

#     tplt = "{:4}\t{:8}\t{:16}"

#     print(tplt.format("序号", "价格", "商品名称"))

#     count = 0

#     for t in ilt:

#         count = count + 1

#         print(tplt.format(count, t[0], t[1]))

#

#

# def main():

#     goods = '高达'

#     depth = 3

#     start_url = 'https://s.taobao.com/search?q=' + goods

#     infoList = []

#     for i in range(depth):

#         try:

#             url = start_url + '&s=' + str(44 * i)

#             html = getHTMLText(url)

#             parsePage(infoList, html)

#         except:

#             continue

#     printGoodsList(infoList)

#

#

# main()

def get_html(url):

    """获取源码html"""

    try:

        r = requests.get(url=url, timeout=10)

        r.encoding = r.apparent_encoding

        return r.text

    except:

        print("获取失败")

def get_data(html, goodlist):

    """使用re库解析商品名称和价格

    tlist:商品名称列表

    plist:商品价格列表"""

    tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)

    plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)

    for i in range(len(tlist)):

        title = eval(tlist[i].split(':')[1])  # eval()函数简单说就是用于去掉字符串的引号

        price = eval(plist[i].split(':')[1])

        goodlist.append([title, price])

def write_data(list, num):

    # with open('E:/Crawler/case/taob2.txt', 'a') as data:

    #    print(list, file=data)

    for i in range(num):  # num控制把爬取到的商品写进多少到文本中

        u = list[i]

        with open('E:/Crawler/case/taob.txt', 'a') as data:

            print(u, file=data)

def main():

    goods = '水杯'

    depth = 3   # 定义爬取深度，即翻页处理

    start_url = 'https://s.taobao.com/search?q=' + goods

    infoList = []

    for i in range(depth):

        try:

            url = start_url + '&s=' + str(44 * i)  # 因为淘宝显示每页44个商品，第一页i=0,一次递增

            html = get_html(url)

            get_data(html, infoList)

        except:

            continue

    write_data(infoList, len(infoList))

if __name__ == '__main__':

    main()

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件的更多相关文章

python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
python爬虫实例，一小时上手爬取淘宝评论(附代码)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
Python 爬虫实例（9）—— 搜索爬取淘宝
# coding:utf- import json import redis import time import requests session = requests.session() impo ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...

随机推荐

【题解】Luogu CF86D Powerful array
原题传送门裸的莫队啊,我博客里有对莫队较详细的介绍这道题很简单,可以说是裸的模板但是如何在已有的值上进行操作? 小学生应该都知道那么转移就超级简单了qaq inline void add(re ...
Linux 命令梳理
Linux 命令梳理待梳理命令 nohup 用户管理 useradd 新建用户 sudo useradd {user name} -s /bin/bash -d /data/{user name} ...
RAFT实践
1. raft org 2. paper 3. animation 4. python examples Raft-python 这个不是很好用. simpleRaft Raft算法分析与理解 ...
QT---实现舒尔特方格(零基础入门)
按照之前说的,加上舒尔特方格,读者还可以自行将此游戏做成APP放到手机上,后面还有贪吃蛇,Java版的飞机大战,五子棋,各类游戏会不断加上来的,当然,会免费附加源代码! 读者可以去4399去玩一下,可 ...
一、虚拟环境.二、路由配置主页与404.三、2.x路由分发.四、伪静态.五、request对象.六、FBV与CBV.七、文件上传.
一.虚拟环境 ''' 解决版本共存 1. 用pycharm选择File点击NewProject然后选择virtualenv创建一个纯净环境 2. 打开下载的目录将venv文件夹下的所有文件(纯净的环境 ...
uniGUI试用笔记（三）
uniGUI下的MessageDlg使用发生了变化,最大的特点是: 1.成为了uniGUIForm的成员函数: 2.变成过程(procedure)了,也就是没有返回值了,使得程序不再具有线程阻塞性. ...
HDU - 1875 畅通工程再续【最小生成树】
Problem Description 相信大家都听说一个"百岛湖"的地方吧,百岛湖的居民生活在不同的小岛中,当他们想去其他的小岛时都要通过划小船来实现.现在政府决定大力发展百岛湖 ...
【做题】neerc2017的A、C、I、L
A - Archery Tournament 一开始往化简公式的方向去想,结果没什么用. 考虑与一条垂线相交的圆的个数.不难YY,当圆的个数最多时,大概就是这个样子的: 我们稍微推一下式子,然后就能发 ...
SSM项目问题中遇到 ArrayList添加元素的问题
记录项目开发中一次有趣的debug经历本来是在做单元测试的,但是发现如下代码有问题.. ProductCategory p = new ProductCategory(); for (int i ...
HDU 4104 Discount（n个数不能构成的最小值）
http://acm.hdu.edu.cn/showproblem.php?pid=4104 题意:给出n个数,每个数最多只能用一次,每次可以选任意个数相加,求不能相加得到的最小值是多少. 思路: 先 ...

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件的更多相关文章

随机推荐

热门专题