爬虫实践--CBA历年比赛数据

闲来无聊，刚好有个朋友来问爬虫的事情，说起来了CBA这两年的比赛数据，做个分析，再来个大数据啥的。来了兴趣，果然搞起来，下面分享一下爬虫的思路。

1、选取数据源

这里我并不懂CBA，数据源选的是国内某门户网站的CBA专栏，下面会放链接地址，有兴趣的可以去看看。

2、分析数据

经过查看页面元素，发现页面是后台渲染，没办法通过接口直接获取数据。下面就要分析页面元素，看到所有的数据都是存在表格里面的，这下就简单了很多。

3、确定思路

思路比较简单，通过正则把所有行数据都提取出来，过滤掉无用的修饰信息，得到的就是想要的数据。此处我把每行的列符合替换成了“,”方便用csv记录数据。

经过过滤之后的数据如下：

球队,第一节,第二节,第三节,第四节,总比分

广州,33,37,36,27,133

北控,23,18,17,34,92

2019-01-1619:35:00轮次：31场序309开始比赛　　比赛已结束

首发,球员,出场时间,两分球,三分球,罚球,进攻,篮板,助攻,失误,抢断,犯规,盖帽,得分

,张永鹏,25.8,7-9,0-0,1-1,4,8,3,0,0,1,0,15

,鞠明欣,19.1,2-4,1-2,0-0,2,5,2,2,0,1,0,7

,西热力江,25.5,1-1,4-8,0-0,1,2,4,1,3,1,0,14

,郭凯,15.5,2-2,0-0,0-0,2,3,0,2,0,2,0,4

,凯尔·弗格,38.1,5-9,5-9,11-11,0,10,12,2,2,4,0,36

,姚天一,12.3,0-1,1-4,0-0,0,1,5,0,0,0,0,3

,科里·杰弗森,24.0,4-4,2-4,3-4,0,6,0,1,0,1,1,17

,陈盈骏,22.6,1-1,2-7,1-1,0,2,4,2,1,2,0,9

,司坤,19.0,2-2,0-2,0-0,0,5,1,0,1,4,0,4

,孙鸣阳,20.6,2-3,0-0,3-3,1,4,1,2,3,4,0,7

,谷玥灼,7.4,1-1,1-2,0-0,0,0,2,0,0,0,0,5

,郑准,10.1,3-4,2-3,0-0,0,2,0,0,0,1,0,12

,总计,240.0,30-41(73.2%),18-41(43.9%),19-20(95.0%),10,48,34,12,10,21,1,133

首发,球员,出场时间,两分球,三分球,罚球,进攻,篮板,助攻,失误,抢断,犯规,盖帽,得分

,于梁,20.8,1-3,0-1,0-0,0,0,2,0,1,5,0,2

,于澍龙,17.9,0-1,1-3,0-0,0,2,1,2,0,1,0,3

,许梦君,46.2,1-3,5-12,0-0,1,6,2,1,0,3,0,17

,托马斯·罗宾逊,43.4,9-20,0-2,9-14,3,11,5,2,1,3,1,27

,杨敬敏,16.0,3-4,0-3,0-0,0,0,0,2,0,1,0,6

,孙贺男,2.8,0-0,0-0,0-0,0,0,0,1,0,1,0,0

,刘大鹏,28.0,1-1,3-5,0-0,1,4,3,2,2,3,0,11

,张铭浩,8.5,0-0,0-0,1-2,0,0,0,0,1,1,0,1

,张帆,27.5,5-7,1-3,0-0,0,1,6,4,1,2,0,13

,王征,23.3,3-3,0-0,6-8,0,2,0,0,1,1,1,12

,常亚松,5.6,0-0,0-1,0-0,0,1,0,1,2,0,0,0

,总计,240.0,23-42(54.8%),10-30(33.3%),16-24(66.7%),5,27,19,15,9,21,2,92

下面分享自己代码：

package com.fun

import com.fun.frame.Save

import com.fun.frame.httpclient.FanLibrary

import com.fun.utils.Regex

import com.fun.utils.WriteRead

class sd extends FanLibrary {

    public static void main(String[] args) {

        int i = 1

        def total = []

        range(300, 381).forEach {x ->

            total.addAll test(x)

        }

        Save.saveStringList(total, "total4.csv")

        testOver()

    }

    static def test(int i) {

        if (new File(LONG_Path + "${i}.csv").exists()) return WriteRead.readTxtFileByLine(LONG_Path + "${i}.csv")

        String url = "http://cbadata.sports.sohu.com/game/content/2017/${i}"

        def get = getHttpGet(url)

        def response = getHttpResponse(get)

        def string = response.getString("content").replaceAll("\\s", EMPTY)

//        output(string)

        def all = Regex.regexAll(string, "<tr.*?<\\/tr>")

        def list = []

        all.forEach {x ->

            def info = x.replaceAll("</*?tr.*?>", EMPTY).replaceAll("</t(d|h)>", ",")

            info = info.replaceAll("<.*?>", EMPTY)

            info = info.charAt(info.length() - 1) == ',' ? info.substring(0, info.length() - 1) : info

            if (info.startsWith("总计")) info = "," + info

            list << info

            output(info)

        }

        Save.saveStringList(list, "${i}.csv")

        return list

    }

}

有兴趣的，可以后台回复“大爷来玩啊”获取本人微信号，咱们私聊。

技术类文章精选

非技术文章精选

大咖风采

爬虫实践--CBA历年比赛数据的更多相关文章

爬虫实践——数据存储到Excel中
在进行爬虫实践时,我已经爬取到了我需要的信息,那么最后一个问题就是如何把我所爬到的数据存储到Excel中去,这是我没有学习过的知识. 如何解决这个问题,我选择先百度查找如何解决这个问题. 百度查到的方 ...
朱晔的互联网架构实践心得S1E10：数据的权衡和折腾【系列完】
朱晔的互联网架构实践心得S1E10:数据的权衡和折腾[系列完] [下载本文PDF进行阅读] 本文站在数据的维度谈一下在架构设计中的一些方案对数据的权衡以及数据流转过程中的折腾这两个事情.最后进行系列文 ...
python爬虫——对爬到的数据进行清洗的一些姿势（5）
做爬虫,当然就要用数据.想拿数据进行分析,首先清洗数据.这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的. 从各大不同新闻网站可以爬到重复新闻...这个可以有.之前为了对爬到的 ...
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps，loads，dump，load方法介绍
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,load ...
模拟美式橄榄球比赛数据（R）
获得和清洗数据: 1.从网络上抓取数据 year<- url<-paste("http://sports.yahoo.com/nfl/stats/byteam?group=Off ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
【爬虫】把抓到数据存起来——爬虫绝配mongodb
[爬虫]把抓到数据存起来——爬虫绝配mongodb 视频地址抓取数据的方法,前面的课程该讲的都已经讲了,爬取下来数据只是第一步,第二步就是要先存起来.我们最容易想到的就是存文件里喽,python写文 ...
Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
Python爬虫工程师必学——App数据抓取实战
Python爬虫工程师必学 App数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...

随机推荐

java普通项目打包成可执行jar文件时如何添加第三包
在java的web项目中,引用第三方包的时候非常简单.因为在web项目上中,默认有一个web-inf文件夹.web-inf文件夹下有一个lib文件夹,如果有用到第三方包,直接丢进去就行了.但是对于普通 ...
浏览器渗透框架BeEF使用笔记(二)
0x03 常用模块 1-信息收集可以收集到例如浏览器名称版本浏览器用户版本插件(包括Java,ActiveX,VBS,Flash……) 窗口大小 1)details面板收集 (2)插件收集信息 ...
IDA快捷键整理
空格键反汇编窗口切换文本跟图形 ESC退到上一个操作地址 G搜索地址或者符号 N重命名分号键注释 ALT+M 添加标签 CTRL+M 列出所有标签 CTRL +S 二进制段的开始地址结束地址 C ...
PHP array_unshift
1.函数的作用:在数组的开头插入一个或者多个元素 2.函数的参数: @params array &$array @params mixed $value1 @params mixed ...
spring boot 2.x文件路径映射问题汇总
当我们在运行可执行的java jar包的时候,我们肯定改变不了jar里面的内容,因此文件上传路径就成了我们必须考虑的一点问题,我们不能往直接这个jar包里面写文件,那么只能写在jar包外面,但是写到j ...
opencv::自定义角点检测
#include <opencv2/opencv.hpp> #include <iostream> #include <math.h> using namespac ...
1.7.3.1版本ride乱码的解决方法
现象: 解决方式: 修改文件\Python36\Lib\site-packages\robotide\contrib\testrunner\testrunner.py 将latin1修改为mbcs 然 ...
百万年薪python之路 -- 运算符及while的练习
1.判断下列逻辑语句的结果,一定要自己先分析 1)1 > 1 or 3 < 4 or 4 > 5 and 2 > 1 and 9 > 8 or 7 < 6 1 &g ...
Spring Cloud ---- 服务消费与负载均衡（feign）
feign是一个声明式的伪客户端,只需要创建一个接口并且注解,它具有可插拔的特性.feign集合了Ribbon,再与Eurake结合实现服务的注册发现与负载均衡.结合Hystrix,具有熔断功能. 1 ...
js中const，var，let区别
1.const定义的变量不可以修改,而且必须初始化(常量) const b = 5 // 正确 // const b // 错误,必须初始化 // b = 4 // 错误,不可被修改 console. ...