requests + bs4 爬取豌豆荚所有应用的信息

1.分析豌豆荚的接口的规律

- 获取所有app的接口url

2.往每一个接口发送请求，获取json数据

解析并提取想要的数据
- app_data:
  - 1.图标
    
    app_img_url
2.名字

app_name

- 3.下载量

app_download_num

- 4.大小

app_size

- 5.简介

app_comment

- 6.详情页url

app_detail

mysql_control.py

import pymysql

class MySQL:

    def __init__(self):

        self.client = pymysql.connect(

            host='127.0.0.1',

            port=3306,

            user='tomjoy',

            password='123456',

            database='wandoujia',

            autocommit=True,

        )

        self.cursor = self.client.cursor(

            pymysql.cursors.DictCursor

        )

    def execute(self, sql, args):

        try:

            self.cursor.execute(sql, args)

        except Exception as e:

            print(e)

    def close(self):

        self.cursor.close()

        self.client.close()

main.py

import requests

import re

from bs4 import BeautifulSoup

from mysql_control import MySQL

# 1.发送请求：

def get_html(url):

    res = requests.get(url)

    return res

# 2.解析数据

def parse_data(data):

    soup = BeautifulSoup(data, 'lxml')

    # 获取所有的li标签，li中包含所有想要的数据

    li_list = soup.find_all(name='li')

    for li in li_list:

        # app详情url

        app_detail = li.find(name='a').attrs.get('href')

        print('详情url:', app_detail)

        # app图标url

        app_img_url = li.find(name='img').attrs.get('data-original')

        print('图标url:', app_img_url)

        # app名称

        app_name = li.find(name='img').attrs.get('alt')

        print('名称:', app_name)

        # 下载人数

        app_download_num = li.find(name='span', attrs={'class': 'install-count'}).text

        print('下载人数:', app_download_num)

        # 大小

        try:

            # 有可能匹配规则是错的或者没有大小，然后获取不到text文本

            app_size = li.find(name='span', attrs={'title': re.compile('MB')}).text

        except Exception as e:

            # 放弃匹配规则不一样的数据，默认为空字符串

            app_size = ''

        print('大小:', app_size)

        # 简介

        app_comment = li.find(name='div', attrs={'class': 'comment'}).text

        print('简介:', app_comment)

        print('*' * 100)

        yield app_name, app_detail, app_img_url, app_download_num, app_size, app_comment

        # app_data = f"""

        #     '名称:', {app_name},

        #     '详情url:', {app_detail},

        #     '图标url:', {app_img_url},

        #     '下载人数:', {app_download_num},

        #     '大小:', {app_size},

        #     '简介:', {app_comment}

        # """

        # save(app_data)

# 3.保存数据到数据库中

def save(generator_data, mysql_obj):

    for data in generator_data:

        print(data)

        sql = 'insert into wandoujia(app_name, app_detail, app_img_url, app_download_num, app_size, app_comment)' \

              ' values(%s, %s, %s, %s, %s, %s) '

        print(sql)

        mysql_obj.execute(sql, data)

if __name__ == '__main__':

    mysql_obj = MySQL()

    # 1.获取所有app的接口url

    for i in range(1,42):

        url = f'https://www.wandoujia.com/wdjweb/api/top/more?resourceType=0&page={i}&ctoken=mrci2hDXHNxavE42fJ85v3JE'

        # 获取响应数据

        res = get_html(url)

        # 将json数据转成字典

        res_dict = res.json()

        # 获取字典中data的值中的content的值

        data = res_dict.get('data').get('content')

        generator_data = parse_data(data)

        # 保存数据到数据库中

        save(generator_data, mysql_obj)

    mysql_obj.close()

requests + bs4 爬取豌豆荚所有应用的信息的更多相关文章

requests+bs4爬取豌豆荚排行榜及下载排行榜app
爬取排行榜应用信息爬取豌豆荚排行榜app信息 - app_detail_url - 应用详情页url - app_image_url - 应用图片url - app_name - 应用名称 - ap ...
python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
requests bs4 爬取资讯图片
#!/usr/bin/env python # Version = 3.5.2 # __auth__ = '无名小妖' import requests from bs4 import Beautifu ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
使用request+bs4爬取所有股票信息
爬取前戏我们要知道利用selenium是非常无敌的,自我认为什么反爬不反爬都不在话下,但是今天我们为什么要用request+bs4爬取所有股票信息呢?因为他比较原始,因此今天的数据,爬取起来也是比较 ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
requests+正则表达式爬取ip
#requests+正则表达式爬取ip #findall方法,如果表达式中包含有子组,则会把子组单独返回出来,如果有多个子组,则会组合成元祖 import requests import re def ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

随机推荐

GIT 公钥配置
1.下载git 2.ssh-keygen -t rsa -C "xxx@xxx.com" 3.cd ~/.ssh 4.ls 5.cat id_rsa.pub 或者C:\User\x ...
在 Deepin 15.9 安装 KiCad EDA 5.1 （2019-05-30）
在 Deepin 15.9 安装 KiCad EDA 5.1 Deepin (深度系统)是世界著名的 Linux 发行版. KiCad EDA 是世界最强大的开源 PCB 绘制软件. 尝试一:在深度商 ...
Windows命令行创建计划任务
Windows上创建计划任务,尽管可以通过控制面板中的"计划任务"来创建,但是,有可能会报错: 这时,可以在cmd中使用命令行工具schtasks来创建.比如想要创建一个名为&qu ...
Mysql 数据库优化(一)
一避免网页访问错误 1 数据库连接timeout产生页面5xx错误 2 慢查询造成页面无法加载 3 阻塞造成数据无法提交二增加数据库的稳定性三优化用户体验 1 流畅的页面访问速度 2 良好 ...
阿里云DataV专业版发布，为可视化创造更多可能！
阿里云数据可视化应用工具DataV正式推出专业版,该版本为可视化领域专业团队和从业者量身打造,定位数据可视分析大屏搭建场景,让使用者可以轻松hold住复杂交互设计和实时数据交互查询需求. 什么是Dat ...
Android ListView批量选择（全选、反选、全不选）
APP的开发中,会常遇到这样的需求:批量取消(删除)List中的数据.这就要求ListVIew支持批量选择.全选.单选等等功能,做一个比较强大的ListView批量选择功能是很有必要的,那如何做呢? ...
Python基础：28正则表达式
一:概述正则表达式(RE)为高级文本模式匹配,以及搜索-替代等功能提供了基础.正则表达式(RE)是一些由字符和特殊符号组成的字符串,它们能匹配多个字符串.Python通过标准库的re模块支持正则表达 ...
受控组件 & 非受控组件
在 React 中表单组件可分为两类,受控与非受控组件. 一. 受控组件设置了 value 的 <input> 是一个受控组件. 对于受控的 <input>,渲染出来的 HT ...
oracle强制索引失效
如果两个或以上索引具有相同的等级,你可以强制命令ORACLE优化器使用其中的一个(通过它,检索出的记录数量少) . 举例: SELECT ENAME FROM EMP WHERE EMPNO = 79 ...
css 文字超出部分隐藏
未做隐藏处理执行结果: 1.1行超出部分省略号效果: 2.多行超出部分隐藏(目前只能在chrome浏览器中使用,其他浏览器不兼容) 效果: -webkit-line-clamp 属性定义显示行数可 ...

requests + bs4 爬取豌豆荚所有应用的信息

requests + bs4 爬取豌豆荚所有应用的信息的更多相关文章

随机推荐

热门专题