阿狸V任务页面爬取数据解析

需求:

爬取:https://v.taobao.com/v/content/video 所有主播详情页信息

首页分析

　　分析可以得知数据是通过ajax请求获取的.

分析请求头

详情页分析

详情页和详情页数据url对比分析

经过测试,发现我们只需要更改'''userid'''的值就可以获取到不同的数据.

分析完毕开始编写代码

完整代码如下

import re

import requests

import json

import jsonpath

import pymongo

class VtaoSpider:

    headers={

        'referer': 'https://v.taobao.com/v/content/video',

        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36',

    }

    db=None

    def open(self):

        '连接数据库'

        client=pymongo.MongoClient(host='106.12.108.236',port=27017)

        self.db=client['trip']

    def get_first_page(self):

        '获取首页所有的数据'

        url_lst=[]

        for i in range(1,26): #25页数据

            '处理页面'

            params={

                'cateType': 602,

                'currentPage': i,

                '_ksTS': '1554971959356_87',

                '':'',

                '_output_charset': 'UTF-8',

                '_input_charset': 'UTF-8',

            }

            start_url='https://v.taobao.com/micromission/req/selectCreatorV3.do'

            first_data=requests.get(url=start_url,headers=self.headers,params=params)

            url_lst.append(first_data)

            # print(first_data.text)

        return url_lst

    def get_detail_url(self):

        '获取详情页的url'

        response_list=self.get_first_page()

        all_detail_url=[]

        for response in response_list:

            dd = response.text

            d_dict = json.loads(dd)

            detail_url = jsonpath.jsonpath(d_dict, '$..homeUrl')

            #detail_url是一个列表

            all_detail_url.extend(detail_url)

        # print(all_detail_url)

        return all_detail_url

    def get_detail_data(self):

        url_list=self.get_detail_url()

        # print(url_list)

        for url in url_list:

            try:

                ex='userId=(.*?)&'

                user_id=re.findall(ex,url)[0]

                detail_data_url=f'https://v.taobao.com/micromission/daren/daren_main_portalv3.do?userId={user_id}&_ksTS=1554976401436_17'

                # print(detail_data_url)

                #获取响应数据

                data = requests.get(url=detail_data_url, headers=self.headers).text

                data_json=json.loads(data)

                darenNick=jsonpath.jsonpath(data_json,'$..darenNick')[0]

                darenScore=jsonpath.jsonpath(data_json,'$..darenScore')[0]

                nick=jsonpath.jsonpath(data_json,'$..nick')[0]

                creatorType=jsonpath.jsonpath(data_json,'$..creatorType')[0]

                rank=jsonpath.jsonpath(data_json,'$..rank')

                res_data={

                    'darenNick':darenNick,

                    'darenScore':darenScore,

                    'nick':nick,

                    'creatorType':creatorType,

                    'rank':rank,

                }

                #存入数据库

                if self.db['vtaobao'].insert(res_data):

                    print('save to mongo is successful!')

            except Exception as e:

                print(e)

if __name__ == '__main__':

    vspider=VtaoSpider()

    #数据库启动只需要执行一次

    vspider.open()

    vspider.get_detail_data()

一共爬取了450条数据,就是450个主播的相关信息!!!

此代码为使用多进程,多线程,爬取时间不能如你们所愿,感兴趣的朋友可以把代码重构一下,使用多进程,多线程,再分享一波,让大家学习一番,谢谢!!!

阿狸V任务页面爬取数据解析的更多相关文章

Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
借助Chrome和插件爬取数据
工具 Chrome浏览器 TamperMonkey ReRes Chrome浏览器 chrome浏览器是目前最受欢迎的浏览器,没有之一,它兼容大部分的w3c标准和ecma标准,对于前端工程师在开发过程 ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
node.js爬取数据并定时发送HTML邮件
node.js是前端程序员不可不学的一个框架,我们可以通过它来爬取数据.发送邮件.存取数据等等.下面我们通过koa2框架简单的只有一个小爬虫并使用定时任务来发送小邮件! 首先我们先来看一下效果图差不 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...

随机推荐

SQLServer之删除数据库架构
删除数据库架构注意事项要删除的架构不能包含任何对象. 如果架构包含对象,则 DROP 语句将失败. 可以在 sys.schemas 目录视图中查看有关架构的信息. 要求对架构具有 CONTROL 权 ...
初始scrapy,简单项目创建和CSS选择器,xpath选择器(1)
一安装 #Linux: pip3 install scrapy #Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu ...
吴恩达机器学习笔记61-应用实例：图片文字识别(Application Example: Photo OCR)【完结】
最后一章内容,主要是OCR的实例,很多都是和经验或者实际应用有关:看完了,总之,善始善终,继续加油!! 一.图像识别(店名识别)的步骤: 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从 ...
Java数据结构和算法 - 栈和队列
Q: 栈.队列与数组的区别? A: 本篇主要涉及三种数据存储类型:栈.队列和优先级队列,它与数组主要有如下三个区别: A: (一)程序员工具数组和其他的结构(栈.队列.链表.树等等)都适用于数据库应 ...
C语言随机数使用方法
随机数在编程中还是有所应用,最近从网上学习到这方面一点知识,想把它写下来.一.使用随机数所需要的头文件和函数: 头文件:cstdlib(C++ 的 standard libraray) ...
Docker & ASP.NET Core (5)：Docker Compose
第一篇:把代码连接到容器第二篇:定制Docker镜像第三篇:发布镜像第四篇:容器间的连接 Docker Compose简介 Compose是一个用来定义和运行多容器Docker应用的工具.使用C ...
Python基础（zip方法）
zip函数: 描述:将zip函数中的两个可迭代对象参数按对应索引值进行匹配组合,得到zip对象.(拉链式函数) zip函数简单应用如下: #-----------------zip函数-------- ...
文本离散表示（二）：新闻语料的one-hot编码
上一篇博客介绍了文本离散表示的one-hot.TF-IDF和n-gram方法,在这篇文章里,我做了一个对新闻文本进行one-hot编码的小实践. 文本的one-hot相对而言比较简单,我用了两种方法, ...
Capacitor 新一代混合应用“神器” 会代替Cordova吗？？
1.介绍or畅想 Capacitor是由ionic团队最新开发维护的一个跨平台的应用程序容器,可以轻松构建在iOS,Android,Electron 和 Web 上本机运行的Web应用程序.我们称这些 ...
tcc-transaction 分析
tcc-transaction是TCC型事务java实现,具体项目地址点我.本文通过tcc-transaction和Springcloud,分析下tcc-transaction的原理. 要了解一个 ...