【Python爬虫案例学习】Python爬取淘宝店铺和评论

安装开发需要的一些库

(1) 安装mysql 的驱动：在Windows上按win+r输入cmd打开命令行，输入命令pip install pymysql，回车即可。

(2) 安装自动化测试的驱动selenium：在命令行中输入pip install selenium回车。

(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。

(4) Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载anaconda，安装后配置环境变量，在path中添加E:\Anaconda3\anaconda\Library\bin，重启电脑使环境变量生效，安装jieba库，在命令行中输入pip install jieba回车。

(5) 下载ChromeDriver，官方网址为：http://chromedriver.storage.googleapis.com/

index.html，并将chromedriver.exe放在Python安装目录的Scripts文件夹下。

实现

爬取数据的实现主要是用到了Pyquery、selenium库，以下代码主要实现了对淘宝的检索、翻页和对数据的提取。

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

# 设置网站最大响应时间

wait=WebDriverWait(driver,50)

class TaoBaoSearch:

# 初始化，默认搜索为None，创建数据库连接

    def __init__(self,search=None):

        self.name=search

        self.mysql=to.Data_oper()

# 对淘宝网的搜索

    def search(self):

# 设置源网站，这里设置淘宝网站为源网站

        driver.get("https://www.taobao.com/")#J_TSearchForm > div.search-button > button

# “q”为淘宝首页输入框的标签，这里定位到该输入框，并设置要搜索商品的名字

        imput=driver.find_element_by_id("q")

        imput.send_keys(self.name)

# wait.until()该方法的作用是加载出来搜索结果总页数之后开始往下执行

        pageText=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > div.total")))

        total=re.search("\d+",pageText.text)

# 该方法返回搜索结果的总页数

        return total.group(0)

# 提取出相应的数据

    def parseHtml(self):

        html=driver.page_source#获取网页源代码

        doc=qp(html)

# 得到到class为m-itemlist下面的class是.items .item的div

        iteams=doc(".m-itemlist .items .item").items()

# 根据标签选择器提取出需要的数据

        for item in iteams:

            # src=item(".pic .img").attr("src")

            src=item(".row .J_ClickStat").attr("href")  # 该店铺的链接

            person=item(".row .deal-cnt").text()    #购买该商品的人数

            title=item(".row .J_ClickStat").text().split("\n")  # 标题

            shop=item(".row .shopname").text()  # 商品

            location=item(".row .location").text()  # 地区

       # 将提取到的数据放到数组中保存起来

            data=[]

            data.append(str(title[0].strip()))

            data.append(str(shop.strip()))

            data.append(str(location.strip()))

       # 剔除无用字

            data.append(str(person[:-3].strip()))

            data.append(str(src).strip())

# 调用mysql.insert_data()方法将提取到的数据插入到数据库中

            self.mysql.insert_data(data)

#  对网页进行翻页的方法

    def nextpage(self,pagenumber):

# 定位到翻页的按钮前的输入框，也就是对其进行跳转

        pageInput=driver.find_element_by_css_selector("#mainsrp-pager > div > div > div > div.form > input")

        pageInput.clear()

        pageInput.send_keys(pagenumber)

# 定位到跳转按钮，对其进行翻页

        pageButton=driver.find_element_by_css_selector("#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit")

        pageButton.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > ul > li.item.active > span"),str(pagenumber)))

        self.parseHtml()

# 定义主函数，调用上面的的方法

    def main(self):

        total=int(self.search())

        for i in range(2,total):

            self.nextpage(i)

        self.mysql.close()

以下代码是一个排序的算法，其主要作用是在界面上显示多少行数据，主要思路为：根据用户输入的数字创建一个数组，读取数据库中得到数据，分离出来购买人数并转换成int类型，将数据每次添加一个到数组中，当数组的长度等于用户想要显示最大行数时，对其数组中的数据从大到小进行排序，接下来，每当读取一个数据之后，就对数组中最小的那个进行比较，如果比起小，就跳过，否则，对该数据进行插入操作，并删除之前最小的那个数据，最后数组中保存的就是购买人数最多的前n条数据。

主要代码如下：

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

#对数据进行排序，data为购买人数

def shot_data(self,data,i=10):    # i为用户想要显示的最大行数，默认为10行

    top=[]

    if i>len(data):

        i=len(data)

    for x in data:

        if len(top)<i:     # 控制数组的长度，另其大小等于i

            top.append(x)

            if len(top)==i:

                top.sort(reverse=True)        # 数组内的数据进行排序

        else:

            l=len(top)

            y=len(top)

            t=1

            if x>top[l-1]:    # 判断其数值是否大于数组内的最小值

                while x>top[l-t] and y>0:    # 控制循环条件

                    t+=1

                    y-=1

                if y!=0:    # y的值若是==0，那么该数值就是最大值

                    for c in range(1,t):

                        top[l-c]=top[l-c-1]

                    top[l-t+1]=x

                else:

                   for c in range(1,t):

                       top[l-c]=top[l-c-1]

                   top[0]=x

    return top    # 返回装有最大的前i个数的数组

以下代码是对评论进行关键词的提取，用到了jieba库中的一些方法。

主要代码如下：

def dis_an(self):

# 清空显示界面

    self.txtMess.delete(1.0,END)

    t=to.Data_oper()

# 得到数据库中的存储信息

    test=t.dis_only_discuss()

# 定义字符串adg，v

    adg=""

    v=""

# 对评论进行分割并标注词性

    word=psg.cut(test)

# w为词意，f为词性

    for w,f in word:

    # 判断词性是否为形容词

        if f.startswith('a'):

            print(w)

            adg=adg+","+w

    # 判断词性是否为动词

        elif f.startswith('v'):

            v=v+","+w

    # 根据该词的权重提取出前5个词

tags=jieba.analyse.extract_tags(adg,topK=5)

    tags1=jieba.analyse.extract_tags(v,topK=5)

【Python爬虫案例学习】Python爬取淘宝店铺和评论的更多相关文章

Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Python网络爬虫（6）--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...
python 网路爬虫（二）爬取淘宝里的手机报价并以价格排序
今天要写的是之前写过的一个程序,然后把它整理下,巩固下知识点,并对之前的代码进行一些改进. 今天要爬取的是淘宝里的关于手机的报价的信息,并按照自己想要价格来筛选. 要是有什么问题希望大佬能指出我的错误 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...

随机推荐

大文件断点续传插件webupload插件
java两台服务器之间,大文件上传(续传),采用了Socket通信机制以及JavaIO流两个技术点,具体思路如下: 实现思路: 1.服:利用ServerSocket搭建服务器,开启相应端口,进行长连接 ...
【CSP膜你赛】柠檬的密码（manacher 二分单调性 st表）
题目描述 Lemon觉得他需要一个复杂的密码来保证他的帐号的安全.他经过多日思考,决定使用一个长度为奇数的回文串来作为他的密码. 但是这个回文串太长了,Lemon记不住,于是Lemon决定把它记在本 ...
Morpheus
https://software.broadinstitute.org/morpheus/
Json文件的BOM
1.什么是BOM BOM: Byte Order Mark UTF-8 BOM又叫UTF-8 签名,其实UTF-8 的BOM对UFT-8没有作用,是为了支持UTF-16,UTF-32才加上的BOM,B ...
CV基础知识点深入理解
BN实现: Batch Normalization学习笔记及其实现: BatchNormalization 层的实现使用Python实现Batch normalization和卷积层 Batch N ...
Learning to Track Any Object
Learning to Track Any Object 2019-10-28 12:14:49 Paper: https://arxiv.org/abs/1910.11844 1.
RSA前台加密后台解密的应用
写在前面项目安全测试需要将登录功能修改, AES加密不符合要求, 现改为RSA非对称加密.(将登录密码加密后传给后台, 后台解密后再进行一系列的校验) .期间遇到了前台js加密但是后台解密失败的问题 ...
Myeclipse安装Maven插件
Myeclipse安装Maven插件一.下载Maven 官网下载maven插件 http://maven.apache.org/download.cgi 下载apache-maven-3.6.3- ...
python安装 werkzeug
1 pip install werkzeug Werkzeug是一个WSGI工具包,他可以作为一个Web框架的底层库.这里稍微说一下, werkzeug 不是一个web服务器,也不是一个web ...
通过下载git包来安装git
Git是一个开源的分布式版本控制系统,可以有效.高速的处理从很小到非常大的项目版本管理.而国外的GitHub和国内的Coding都是项目的托管平台.但是在使用Git工具的时候,第一步要学会如何安装gi ...

【Python爬虫案例学习】Python爬取淘宝店铺和评论

安装开发需要的一些库

实现

【Python爬虫案例学习】Python爬取淘宝店铺和评论的更多相关文章

随机推荐

热门专题