python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件

第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息

（1）分析网页源码

打开淘宝，输入关键字“python”，然后搜索，显示如下搜索结果

从url连接中可以得到搜索商品的关键字是“q=”，所以我们要用的起始url为：https://s.taobao.com/search?q=python

然后翻页，先跳到第二页，url变为：

再跳到第三页，url变为：

经过对比发现，翻页后，变化的关键字是s，每次翻页，s便以44的倍数增长（可以数一下每页显示的商品数量，刚好是44）

所以可以根据关键字“s=”，来设置爬取的深度（爬取多少页）

右键查看源码：

分析商品名称和商品价格分别由哪个关键字控制：

商品名称可能的关键字是“title”和“raw_title”，进一步多看几个商品的名称，发现选取“raw_title”比较合适；商品价格自然就是“view_price”(通过比对淘宝商品展示页面)；

所以商品名称和商品价格分别是以 "raw_title":"名称" 和 "view_price":"价格"，这样的键/值对的形式展示的。

（2）分析如何实现

与上一个例子爬取“最好大学排名”不同，淘宝商品信息不像之前的大学信息是以HTML格式嵌入的，这里的商品信息并未以HTML标签的形式处理数据，而是直接以脚本语言放进来的，所以不需要用BeautifulSoup来解析，直接用正则表达式提取关键字信息即可

（3）提取信息

写个demo，看看是如何一步步解析信息的

# coding:utf-8

import requests

import re

goods = '水杯'

url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)

html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)  # 正则提取商品名称

plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)  # 正则提示商品价格

print(tlist)

print(plist)

print(type(plist))  #  正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

去掉列表中的键，只留下值，也就是去掉每组数据的“raw_title”和“view_price”

print('第一个商品的键值对信息：', tlist[0])  # 查看第一个商品的键值对信息

a = tlist[0].split(':')[1]  # 使用split()方法以":"为切割点，将商品的键值分开，提取值，即商品名称

print('第一个商品的名称', a)

print(type(a))  # 查看a的类型

b = eval(a)  # 使用eval()函数，去掉字符串的引号

print('把商品名称去掉引号后', b)  # 查看去掉引号后的效果

print(type(b))  # 查看b的类型

利用for循环，把每个商品的名称和价格组成一个列表，然后把这写列表再追加到一个大列表中：

goodlist = []

for i in range(len(tlist)):

    title = eval(tlist[i].split(':')[1])  # eval()函数简单说就是用于去掉字符串的引号

    price = eval(plist[i].split(':')[1])

    goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表，然后把所有商品组成的列表追加到一个大列表中

    print(goodlist)

完整代码：

# coding: utf-8

import requests

import re

# def getHTMLText(url):

#     try:

#         r = requests.get(url, timeout=30)

#         r.raise_for_status()

#         r.encoding = r.apparent_encoding

#         return r.text

#     except:

#         return ""

#

#

# def parsePage(ilt, html):

#     try:

#         plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)

#         tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)

#         for i in range(len(plt)):

#             price = eval(plt[i].split(':')[1])

#             title = eval(tlt[i].split(':')[1])

#             ilt.append([price, title])

#     except:

#         print()

#

#

# def printGoodsList(ilt):

#     tplt = "{:4}\t{:8}\t{:16}"

#     print(tplt.format("序号", "价格", "商品名称"))

#     count = 0

#     for t in ilt:

#         count = count + 1

#         print(tplt.format(count, t[0], t[1]))

#

#

# def main():

#     goods = '高达'

#     depth = 3

#     start_url = 'https://s.taobao.com/search?q=' + goods

#     infoList = []

#     for i in range(depth):

#         try:

#             url = start_url + '&s=' + str(44 * i)

#             html = getHTMLText(url)

#             parsePage(infoList, html)

#         except:

#             continue

#     printGoodsList(infoList)

#

#

# main()

def get_html(url):

    """获取源码html"""

    try:

        r = requests.get(url=url, timeout=10)

        r.encoding = r.apparent_encoding

        return r.text

    except:

        print("获取失败")

def get_data(html, goodlist):

    """使用re库解析商品名称和价格

    tlist:商品名称列表

    plist:商品价格列表"""

    tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)

    plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)

    for i in range(len(tlist)):

        title = eval(tlist[i].split(':')[1])  # eval()函数简单说就是用于去掉字符串的引号

        price = eval(plist[i].split(':')[1])

        goodlist.append([title, price])

def write_data(list, num):

    # with open('E:/Crawler/case/taob2.txt', 'a') as data:

    #    print(list, file=data)

    for i in range(num):  # num控制把爬取到的商品写进多少到文本中

        u = list[i]

        with open('E:/Crawler/case/taob.txt', 'a') as data:

            print(u, file=data)

def main():

    goods = '水杯'

    depth = 3   # 定义爬取深度，即翻页处理

    start_url = 'https://s.taobao.com/search?q=' + goods

    infoList = []

    for i in range(depth):

        try:

            url = start_url + '&s=' + str(44 * i)  # 因为淘宝显示每页44个商品，第一页i=0,一次递增

            html = get_html(url)

            get_data(html, infoList)

        except:

            continue

    write_data(infoList, len(infoList))

if __name__ == '__main__':

    main()

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件的更多相关文章

python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
python爬虫实例，一小时上手爬取淘宝评论(附代码)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
Python 爬虫实例（9）—— 搜索爬取淘宝
# coding:utf- import json import redis import time import requests session = requests.session() impo ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...

随机推荐

JAVA中拆箱和装箱
浅谈JAVA中拆箱与装箱一. 什么是装箱?什么是拆箱? 在Java SE5之前,如果要生成一个数值为10的Integer对象,必须这样进行: Integer i = new Integer(10) ...
VC++ 利用PDB和dump文件定位问题并进行调试
转载:https://blog.csdn.net/zfs_kuai/article/details/43646665 转载:https://blog.csdn.net/i_chaoren/articl ...
Eclipse查看Servlet源码
Eclipse查看Servlet源码 @(Java) 1.servlet-api 和 javax.servlet-api的区别在正式查看Servlet源码前,我们首先要分清楚上述两个jar包的区别. ...
topcoder srm 450 div1
problem1 link 用$f[i][0],f[i][1]$表示从$i$位置开始Alice是先手是否可以胜利,是后手是否可以胜利. problem2link 每次钱数够$price$时可以选择使得 ...
Manjaro kde 18.0安装与基本配置
目录更换源镜像.更新系统安装搜狗输入法安装软件系统配置最后清理垃圾首先用Rufus制作启动U盘安装,设置好时间和日期等更换源镜像.更新系统排列源(只选清华源mirrors.tuna.t ...
集训DAYn——组合数学（1）
组合又到了我们信息老师讲数学课了,吼吼吼然后数学老师中途探望了一下,哇塞塞,然后他看到黑板上的题,微妙的笑了. 排列: 从n个数中有序的选出m个数的方案数是多少?第一个数有n种取法,第二个数有n- ...
网络流24题 P2754 [CTSC1999]家园
思路如图,建立分层图跑dinic 每次在残余网络里加边继续跑跑到ans>=k时候的i就是答案诶呀啊,忘记弄箭头了,最后一列是向上的箭头,不过聪明的你们应该没啥影响代码 #include ...
hihoCoder week1 最长回文子串
题目链接 https://hihocoder.com/contest/hiho1/problem/1 做法 Manacher #include <bits/stdc++.h> using ...
(转) Face-Resources
本文转自:https://github.com/betars/Face-Resources Face-Resources Following is a growing list of some ...
【译】第20节---数据注解-InverseProperty
原文:http://www.entityframeworktutorial.net/code-first/inverseproperty-dataannotations-attribute-in-co ...

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件的更多相关文章

随机推荐

热门专题