使用requests_html抓取数据

from requests_html import HTMLSession

import json

class YejiCollege:

    def __init__(self, url):

        self.url = url

        self.headers = {"User-Agent": ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36")}

    def get_response(self):

        session = HTMLSession()

        return session.get(self.url, headers=self.headers)

    def filter_info(self):

        html_data = self.get_response()

        # 从第三个P标签开始，获取虚假大学数据

        return html_data.html.find('div#data249708 p')[2:]

    @staticmethod

    def get_json(data):

        info = {}

        city = None

        for line in data:

            # 每个城市会显示为 <p><strong>北京：151所</strong></p>

            if 'strong' in line.html:

                # 拆分城市与虚假大学数量

                city, total_college = line.text.split('：')

                # 构造字典

                info[city] = dict(total=total_college, data=[])

                continue

            info[city]['data'].append(line.text)

        with open('colleges.json', 'w+', encoding='utf-8') as f:

            # ensure_ascii默认为True,json.dump后会被转码...

            f.write(json.dumps(info, ensure_ascii=False))

def run():

    url = 'http://www.gaosan.com/gaokao/249708.html'

    main = YejiCollege(url)

    data = main.filter_info()

    main.get_json(data)

if __name__ == '__main__':

    run()

结果：

  ... ... ,

  "陕西": {

    "total": "16所",

    "data": [

      "西安电子信息学院",

      "西安理工学院",

      "西安工商学院",

      "西安科技师范大学",

      "西安信息技术学院",

      "西安工商管理学院",

      "西安工业科技技术学院",

      "西安工业科技学院",

      "陕西国防工业技术学院",

      "陕西瀚林医科学院",

      "西安工业工程学院",

      "陕西工贸职业学院",

      "西安科技职业学院",

      "西安经济技术学院",

      "西安机电工程学院",

      "陕西科技管理学院"

    ]

  },

  "福建": {

    "total": "5所",

    "data": [

      "厦门师范学院",

      "福建海峡经贸技术学院",

      "福建经济贸易大学",

      "福建科技学院",

      "福建省轻工业学院"

    ]

  },

  ... ...

文章参考于微信公众号【清风Python】

使用requests_html抓取数据的更多相关文章

nodejs--实现跨域抓取数据
最近公司安排给我一个任务,抓取页面数据:http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1 ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
C# WebBrowser控件模拟登录抓取数据
参考博客:C#中的WebBrowser控件的使用参考博客:C#中利用WebBrowser控件,获得HTML源码一.问题点: 1.模拟登录后,如果带有嵌套的iframe嵌套,不好读取iframe内容 ...
PHP的cURL库：抓取网页，POST数据及其他,HTTP认证抓取数据
From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...
php中封装的curl函数(抓取数据)
介绍一个封闭好的函数,封闭了curl函数的常用步骤,方便抓取数据. 代码如下: <?php /** * 封闭好的 curl函数 * 用途:抓取数据 * edit by www.jbxue.com ...
php中CURL技术模拟登陆抓取数据实战，抓取某校教务处学生成绩。
这两天有基友要php中curl抓取教务处成绩的源码,用于微信公众平台的开发.下面笔者只好忍痛割爱了.php中CURL技术模拟登陆抓取数据实战,抓取沈阳工学院教务处学生成绩. 首先,教务处登录需要验证码 ...
【转】蓝牙4.0BLE cc2540 usb-dongle的 SmartRF Packet Sniffer 抓取数据方法--不错
原文网址:http://blog.csdn.net/mzy202/article/details/32408223 蓝牙4.0BLE cc2540 usb-dongle的 SmartRF Packet ...
.net处理页面的抓取数据
//要抓取数据的页面路径 string url = "http://www.scedu.net/banshi/used-car/lower-secondary-education/middl ...
windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步. 对nutc ...

随机推荐

VS 2019编辑含有资源文件.resx的项目时提示MSB3086 任务未能使用 SdkToolsPath 或注册表项找到“al.exe”
环境: Win10 X64, VS2019 错误提示: 错误 MSB3086 任务未能使用 SdkToolsPath“”或注册表项“HKEY_LOCAL_MACHINE\SOFTWARE\Micros ...
Linux性能优化从入门到实战：06 CPU篇：快速定位CPU瓶颈
CPU性能指标 (1)CPU使用率:1) 用户态CPU使用率(包括用户态 user 和低优先级用户态 nice).2) 系统CPU使用率.3) 等待 I/O 的CPU使用率.4) 软中断和硬 ...
bzoj3123 [Sdoi2013]森林树上主席树+启发式合并
题目传送门 https://lydsy.com/JudgeOnline/problem.php?id=3123 题解如果是静态的查询操作,那么就是直接树上主席树的板子. 但是我们现在有了一个连接两棵 ...
SpringBoot---异步消息
1.概述 1.1.SpringBoot 对 JMS 的自动配置位于 org.springframework.boot.autoconfigure.jms下: 1.2.SpringBoot 支 ...
hdu 6053: TrickGCD (2017 多校第二场 1009）【莫比乌斯容斥原理】
题目链接定义f[n]表示n是最大公约数情况下的计数,F[n]为n是公约数情况下的计数 (可以和 http://www.cnblogs.com/Just--Do--It/p/7197788.html ...
Web开发中的服务器跳转与客户端跳转
两者比较如下: 跳转类型客户端请求次数服务端响应次数 URL变化站外跳转作用域服务器跳转 1 1 无否 pageContext.request.session.application 客 ...
NOIp 图论算法专题总结 (1)：最短路、最小生成树、最近公共祖先
系列索引: NOIp 图论算法专题总结 (1) NOIp 图论算法专题总结 (2) NOIp 图论算法专题总结 (3) 最短路 Floyd 基本思路:枚举所有点与点的中点,如果从中点走最短,更新两点间 ...
动态规划 List
例题 #A 传纸条(Accepted) #B 乘积最大 (Unaccepted) #C 石子合并 (Accepted) #D 加分二叉树 (Unaccepted) #E 没有上 ...
instagram
https://www.instagram.com/graphql/query/?query_hash=42323d64886122307be10013ad2dcc44&variables={ ...
生产环境下，oracle不同用户间的数据迁移。第一部分
:任务名称:生产环境下schema ELON数据迁移至schema TIAN ######################################## 测试一:测试参数数据泵数据导出:exp ...

使用requests_html抓取数据

使用requests_html抓取数据的更多相关文章

随机推荐

热门专题