requests+bs4爬取豌豆荚排行榜及下载排行榜app

爬取排行榜应用信息

爬取豌豆荚排行榜app信息

    - app_detail_url - 应用详情页url

    - app_image_url - 应用图片url

    - app_name - 应用名称

    - app_install_count - 下载量

    - app_size - 应用大小

    - app_info - 应用简介

1.分析：

    - 目标url: https://www.wandoujia.com/top/app

    - 在网页中，发现了加载更多按钮，点击后，为异步请求，请求url为：

        https://www.wandoujia.com/wdjweb/api/top/more?resourceType=0&page=2&ctoken=kuoxO3QZz7JKIJtuA6RXibwL

    - 修改page的值，可以得到响应数据，则可以直接爬接口数据，page范围为1~41

2. 爬取数据过程

    - 发送请求

    - 解析数据

    - 保存数据到MySQL数据库

代码

# top_app.py

import requests

from bs4 import BeautifulSoup

from wandoujia.mysql_control import MySQL

# 请求函数

def get_data(url):

    response = requests.get(url)

    return response.json().get('data')

# 解析数据

def parse_data(json_data):

    data = json_data.get('content')

    # print(data)

    soup = BeautifulSoup(data, 'lxml')

    # 找出所以的li标签(每个app都在一个li标签里)

    li_list = soup.find_all(name='li', attrs={'class': 'card'})

    # print(li_list)

    for li in li_list:

        # 获取app详情页url

        app_detail_url = li.find(name='a').get('href')

        # print('应用详情页：', app_detail_url)

        # 获取app图片url

        img_tag = li.find(name='img')

        # print(img_tag)

        # app图片url

        app_image_url = img_tag.get('data-original')

        # print('应用图片：', app_image_url)

        # 应用名称

        app_name = img_tag.get('alt')

        # print('应用名称：', app_name)

        # 获取应用下载量

        app_install_count = li.find(name='span', attrs={'class': 'install-count'}).text

        # print('应用下载量：', app_install_count)

        # 获取应用大小

        try:

            app_size = li.find(name='span', attrs={'title': re.compile('MB')}).text

        except:

            app_size = ''

        # print('应用大小：', app_size)

        # 获取应用简介

        app_info = li.find(name='div', attrs={'class': 'comment'}).text.strip()

        # print('应用简介：', app_info)

        yield app_detail_url, app_image_url, app_name, app_install_count, app_size, app_info

# 保存数据

def save_data(generator_data, mysql_obj):

    for data in generator_data:

        # print(data)

        sql = 'insert into top_app(app_detail_url, app_image_url, app_name, app_install_count, app_size, app_info) ' \

              'values(%s, %s, %s, %s, %s, %s)'

        mysql_obj.execute(sql, data)

        print(f'{data[2]} 数据已爬取成功')

        print('*' * 100)

if __name__ == '__main__':

    # 实例化数据库对象

    mysql_obj = MySQL()

    # 拼接url

    for page in range(1, 42):

        url = f'https://www.wandoujia.com/wdjweb/api/top/more?resourceType=0&page={page}&ctoken=kuoxO3QZz7JKIJtuA6RXibwL'

        # 发送请求

        json_data = get_data(url)

        # 解析数据

        generator_data = parse_data(json_data)

        # 保存数据

        save_data(generator_data, mysql_obj)

MySQL数据库

# mysql.py

import pymysql

class MySQL:

    def __init__(self):

        self.client = pymysql.connect(

            host='127.0.0.1',

            port=3306,

            database='wandoujia',

            user='root',

            password='admin',

            charset='utf8',

            autocommit=True

        )

        self.cursor = self.client.cursor(pymysql.cursors.DictCursor)

    def execute(self, sql, args):

        try:

            self.cursor.execute(sql, args)

        except Exception as e:

            print(e)

    def close(self):

        self.cursor.close()

        self.client.close()

爬取详情页下载链接并下载

爬取豌豆荚排行榜app详情页

- 分析：

    - 目标url：在top_app文件中已有爬取的函数，可直接使用得到app_detail_url

    - 详情页面分析：

        - <div class="download-wp">下存在a标签<a class="normal-dl-btn">，href属性为下载链接

- 爬取数据过程：

	 - 使用上面top_app.py中的get_data(),和parse_data()可得到每个app的详情页

	 - 发送请求

	 - 解析数据

	 - 多线程下载app

代码

# top_app_detail.py

import os

from concurrent.futures import ThreadPoolExecutor

import requests

from bs4 import BeautifulSoup

from wandoujia import top_app

# 获取详情页数据

def get_detail_data(data):

    response = requests.get(data[0])

    # print(response.text)

    return response.text

# 解析数据

def parse_detail_data(response):

    soup = BeautifulSoup(response, 'lxml')

    app_download_url = soup.find(name='a', attrs={'class': 'normal-dl-btn'}).get('href')

    # print(f'应用名称： {data[2]}, 下载链接： {app_download_url}')

    return data[2], app_download_url

# 保存数据

def download_app(app_name_download_url_tuple):

    # 下载app

    app_name = os.path.join(save_dir, app_name_download_url_tuple[0])

    print(app_name_download_url_tuple[0], '开始下载')

    app_file = requests.get(app_name_download_url_tuple[1])

    # print(app_name)

    with open(app_name, 'wb') as f:

        for line in app_file.iter_lines():

            f.write(line)

    print(app_name_download_url_tuple[0], '下载完成')

if __name__ == '__main__':

    # app保存文件夹

    save_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'top_app')

    # 多线程下载，下载线程数为3

    pool = ThreadPoolExecutor(3)

    # 拼接url

    for page in range(1, 42):

        url = f'https://www.wandoujia.com/wdjweb/api/top/more?resourceType=0&page={page}&ctoken=kuoxO3QZz7JKIJtuA6RXibwL'

        # 获取详情页url

        # 发送请求

        json_data = top_app.get_data(url)

        # 解析数据

        generator_data = top_app.parse_data(json_data)

        # 爬取详情页

        for data in generator_data:

            # print(data)

            # 获取详情页数据

            detail_response = get_detail_data(data)

            # 解析详情页数据

            app_name_download_url_tuple = parse_detail_data(detail_response)

            # 单线程请求并下载app

            # download_app(app_name_download_url_tuple)

            # 使用多线程请求并下载app，下载线程数不宜过多，否则会很慢

            pool.submit(download_app, app_name_download_url_tuple)

requests+bs4爬取豌豆荚排行榜及下载排行榜app的更多相关文章

requests + bs4 爬取豌豆荚所有应用的信息
1.分析豌豆荚的接口的规律 - 获取所有app的接口url 2.往每一个接口发送请求,获取json数据解析并提取想要的数据 app_data: 1.图标 app_img_url 2.名字 app_n ...
requests bs4 爬取资讯图片
#!/usr/bin/env python # Version = 3.5.2 # __auth__ = '无名小妖' import requests from bs4 import Beautifu ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
使用request+bs4爬取所有股票信息
爬取前戏我们要知道利用selenium是非常无敌的,自我认为什么反爬不反爬都不在话下,但是今天我们为什么要用request+bs4爬取所有股票信息呢?因为他比较原始,因此今天的数据,爬取起来也是比较 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
requests+正则表达式爬取ip
#requests+正则表达式爬取ip #findall方法,如果表达式中包含有子组,则会把子组单独返回出来,如果有多个子组,则会组合成元祖 import requests import re def ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

随机推荐

Beta阶段第八次会议
Beta阶段第八次会议时间:2020.5.24 完成工作姓名工作难度完成度 ltx 1.修改一下小程序游客模式的风格轻 80% xyq 1.针对昨天提出的意见对场地申请表格进行修改中 9 ...
2021.9.13考试总结[NOIP模拟52]
T1 路径考虑每一位的贡献,第$i$位每$2^i$个数会变一次,那么答案为$\sum_{i=1}^{log_2n} \frac{n}{2^i}$. $code:$ 1 #include<bit ...
2021.8.15考试总结[NOIP模拟40]
T1 送花线段树.枚举右端点,线段树记录左端点对应的值. 每次对当前颜色上上次出现的位置到上次出现的位置区间减,上次出现的位置到当前位置区间加. $code:$ 1 #include<bits ...
android tcp通讯
Andoird TCP通讯前言最近在写一个即时通讯的项目,有一些心得,写出来给大家分享指正一下. 简单描述一下这个项目: 实时查询车辆运行状态的项目,走TCP通迅. 接口采用GZIP压缩. 后台是 ...
Netty：Netty的介绍以及它的核心组件（二）—— ChannelFuture与回调
Callback 回调一个 Callback(回调)就是一个方法,一个提供给另一个的方法的引用. 这让另一个方法可以在适当的时候回过头来调用这个 callback 方法.Callback 在很多编程 ...
.NET 生态系统的蜕变之 .NET 6
.NET 6 是自.NET 4 框架以来生态系统看到的最大版本更新,虽然.NET Core 是2014年开始非常大的一项重大战略举措,但是.NET 6是真正的具有强大动力的非常重要的版本. 2021年 ...
hash 哈希表缓存表
系统初始hash表为空,当外部命令执行时,默认会从 PATH路径下寻找该命令,找到后会将这条命令的路径记录到 hash表中,当再次使用该命令时,shell解释器首先会查看hash 表,存在将执行之,如 ...
绚丽的色彩从何而来_LOTO示波器实测WS2812B系LED光源
绚丽的色彩从何而来_LOTO示波器实测WS2812B系LED光源不管你对 "RGB性能狂升300%" 的梗认同不认同,不可否认,绚丽的彩色很是酷炫,在现在市面上带"灯& ...
Linux&C———进程间通信
管道和有名管道消息队列共享内存信号套接字由于进程之间的并不会像线程那样共享地址空间和数据空间,所以进程之间就必须有自己特有的通信方式,这篇博客主要介绍自己了解到的几种进程之间的通信方式,内容 ...
【SVG】为了前端页面的美丽，我选择学习SVG
[SVG]为了前端页面的美丽,我选择学习SVG 博客说明文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢! 说明 SVG在之前自学的过程中, ...

requests+bs4爬取豌豆荚排行榜及下载排行榜app

爬取排行榜应用信息

代码

MySQL数据库

爬取详情页下载链接并下载

requests+bs4爬取豌豆荚排行榜及下载排行榜app的更多相关文章

随机推荐

热门专题