基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫
语言:python
环境:ubuntu
爬取内容:steam游戏标签,评论,以及在 steamspy 爬取对应游戏的销量
使用相关:urllib,lxml,selenium,chrome
解释:
流程图如下

1.首先通过 steam 商店搜索页面的链接,打开 steam 搜索页面,然后用如下正则表达式来得到前100个左右的游戏的商店页面链接。
reg = r'<a href="(http://store.steampowered.com/app/.+?)"'
2.对于得到的每个商店页面链接,可以通过如下正则表达式来得到对应的有游戏名称.
reg = r'.+?/app/[0-9]+?/(.+?)/'
例如如下链接 http://store.steampowered.com/app/268910/Cuphead/ ,可以得到游戏名字为Cuphead。
3.然后通过 selenium 来模拟 chrome 上的操作,以获取动态加载的网页。先打开网页 steamspy,然后在网页上检查元素,看源码,发现搜索框元素的 name 值为”s”,所以可以通过 driver.find_element_by_name("s") 找到搜索框,模拟输入对应的游戏名字。进行搜索,得到了新的页面,再通过如下正则表达式得到销量
reg = r'<strong>Owners</strong>:\s+?([0-9,]+?)\s+?'
例如上面那个网址对应应当输入 Cuphead。
4.得到游戏标签,这一步比较简单,打开商店链接,得到源码,然后通过如下正则表达式获取标签即可
reg=r'>\s+?([^\t]+?)\s+?</a><a href="http://store.steampowered.com/tag.+?"\s+?class="app_tag"'
5.得到游戏评论。由于 steam 商店评论是动态加载的,所以要又通过 selenium 来模拟 chrome 的操作,首先进入商店页面,因为有些商店是有年龄确认的按钮存在,那么通过 xpath 来找 viewpage 的按钮,如果有按钮则模拟点击操作,否则不点击。代码如下
driver.find_element_by_xpath("//span[text()='View Page']").click()
6.这样就进入了商店页面,然后类似地,通过xpath找到加载评论的按钮,加载评论,代码如下。
driver.find_element_by_xpath("//span[starts-with(@class,'game_review_summary')]").click()
7.再通过xpath找到多条评论的链接,代码如下。
elements = driver.find_elements_by_xpath("//a[starts-with(@href,'http://steamcommunity.com/id')]")
8.得到评论链接之后,打开评论链接,并通过如下正则表达式来得到评论正文内容。
reg = r'<div\s+?id="ReviewText">(.+?)</div>'
代码:
import urllib
import re
import sys
import lxml
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getGameLink(html):
reg = r'<a href="(http://store.steampowered.com/app/.+?)"'
gamelinkre = re.compile(reg)
gamelinklist = re.findall(gamelinkre,html)
return gamelinklist
def getTag(html):
reg = r'>\s+?([^\t]+?)\s+?</a><a href="http://store.steampowered.com/tag.+?"\s+?class="app_tag"'
tagre = re.compile(reg)
taglist = re.findall(tagre,html)
return taglist
def getReviewLink(url):
gamereviewlinklist = []
driver = webdriver.Chrome()
flag = True
try:
driver.get(url)
driver.implicitly_wait(30)
flag = True
except:
return gamereviewlinklist
try:
driver.find_element_by_xpath("//span[text()='View Page']").click()
driver.implicitly_wait(30)
flag = True
except:
flag = False
try:
driver.find_element_by_xpath("//span[starts-with(@class,'game_review_summary')]").click()
driver.implicitly_wait(30)
flag = True
except:
flag = False
if(flag == False):
driver.quit()
return gamereviewlinklist
elements = driver.find_elements_by_xpath("//a[starts-with(@href,'http://steamcommunity.com/id')]")
pattern = re.compile(r'recommended/.+')
for element in elements:
url = element.get_attribute("href")
if(re.search(pattern,url)):
gamereviewlinklist.append(url)
driver.quit()
return gamereviewlinklist
def getReview(html):
reg = r'<div\s+?id="ReviewText">(.+?)</div>'
reviewre = re.compile(reg)
reviewlist = re.findall(reviewre,html)
reviewlist.append("")
print reviewlist[0]
return reviewlist[0]
def getSale(url):
searchwebname="http://steamspy.com/search.php"
reg = r'.+?/app/[0-9]+?/(.+?)/'
namere = re.compile(reg)
nameresult = re.findall(namere,url)
name = nameresult[0]
print name
driver = webdriver.Chrome()
driver.get(searchwebname)
driver.implicitly_wait(30)
flag = True
elem = driver.find_element_by_name("s")
elem.clear()
elem.send_keys(name)
driver.implicitly_wait(30)
elem.send_keys(Keys.RETURN)
driver.implicitly_wait(30)
pagesource = driver.page_source
reg = r'<strong>Owners</strong>:\s+?([0-9,]+?)\s+?'
salere = re.compile(reg)
saleresult = re.findall(salere,pagesource)
sale = "-1"
if len(saleresult)>0:
sale = saleresult[0]
print sale
driver.quit()
return sale
reload(sys)
sys.setdefaultencoding('utf-8')
urls = []
inputfilename = "urls.txt"
inputfile = file(inputfilename,'r')
emptyflag = 0
while not emptyflag:
nowline = inputfile.readline()
if(nowline == ""):
emptyflag = 1
else:
urls.append(nowline)
inputfile.close()
gamelinklist = []
for urli in urls:
html = getHtml(urli)
gamelinklist.extend(getGameLink(html))
salefilename = "gamesales.txt"
salefile = file(salefilename,"w")
for gamelinki in gamelinklist:
sale = getSale(gamelinki)
print sale
print >> salefile,gamelinki
print >> salefile,sale
print >> salefile,"sale end"
print gamelinki+"--sale end"
salefile.close()
tagfilename = "gametags.txt"
tagfile = file(tagfilename,"w")
for gamelinki in gamelinklist:
html = getHtml(gamelinki)
taglist = getTag(html)
print taglist
print >> tagfile,gamelinki
for tagi in taglist:
print >> tagfile,tagi
print >> tagfile,"tag end"
print gamelinki+"--tag end"
tagfile.close()
reviewfilename = "gamereviews.txt"
reviewfile = file(reviewfilename,"w")
lst = ""
for gamelinki in gamelinklist:
reviewlinklist = getReviewLink(gamelinki)
print reviewlinklist
print >> reviewfile,gamelinki
for reviewlinki in reviewlinklist:
if(reviewlinki != lst):
html = getHtml(reviewlinki)
review = getReview(html)
print >> reviewfile,review
print >> reviewfile,"a review end"
lst = reviewlinki
print >> reviewfile,"review end"
print gamelinki+"--review end"
reviewfile.close()
基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫的更多相关文章
- 基于steam的游戏销量预测 — PART 3 — 基于BP神经网络的机器学习与预测
语言:c++ 环境:windows 训练内容:根据从steam中爬取的数据经过文本分析制作的向量以及标签 使用相关:无 解释: 就是一个BP神经网络,借鉴参考了一些博客的解释和代码,具体哪些忘了,给出 ...
- python爬虫 爬取steam热销游戏
好久没更新了啊...最近超忙 这学期学了学python 感觉很有趣 就写着玩~~~ 爬取的页面是:https://store.steampowered.com/search/?filter=globa ...
- 基于云开发开发 Web 应用(三):云开发相关数据调用
介绍 在完成了 UI 界面的实现后,接下来可以开始进行和云开发相关的数据对接.完成数据对接后,应用基础就打好了,接下来的就是发布上线以及一些小的 feature 的加入. 配置 在进行相关的配置调用的 ...
- scrapy爬取youtube游戏模块
本次使用mac进行爬虫 mac爬虫安装过程中出现诸多问题 避免日后踩坑这里先进行记录 首先要下载xcode ,所以要更新macOS到10.14.xx版本 更新完之后因为等下要进行环境路径配置 但是ma ...
- 基于爬取百合网的数据,用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...
- 爬虫实战--基于requests和beautifulsoup的妹子网图片爬取(福利哦!)
#coding=utf-8 import requests from bs4 import BeautifulSoup import os all_url = 'http://www.mzitu.co ...
- requests模块session处理cookie 与基于线程池的数据爬取
引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
- scrapy框架基于CrawlSpider的全站数据爬取
引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
- requests模块处理cookie,代理ip,基于线程池数据爬取
引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
随机推荐
- bootstrap-table删除指定行注意事项
方法有两种: 1.使用官方文档的数据(反正我试了2个小时都不行,如有大神请指导下):使用events和operate相结合的方式 2.不使用events,在formatter里面定义事件的实现. 上面 ...
- 记录一次hadoop2.8.4版本RM接入zk ha问题
背景: 公司将线上hadoop RM接入ZK 实现高可用 但ZK Znode 默认存储1M,当存储数据量大时候可能导致线上业务的崩溃 处理方案如下: 1,修改ZK配置 增加默认存储上限 2,修改RM数 ...
- python列表推导同filter和map的比较
首先介绍下filter和map: filter: filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表. 该接收两个参数,第一个为函数,第二个为序列,序列的每个元 ...
- 关于DB2的使用(DB2数据命令)
公司所用的数据库有金仓和DB2 首先要用命令窗口直接打开db2需要在cmd中输入:db2cmd 1:启动DB2数据库:db2start 2:连接数据库:db2 connect to 数 ...
- Asp.net core 学习笔记 ef core Surrogate Key, Natural Key, Alternate Keys
更新: 2019-12-23 foreignkey 并不一样要配上 alternate key,其实只要是 unique 就可以了. 和 sql server 是一样的, 经常有一种错觉 primar ...
- Spring在Thread中注入Bean无效的解决方式
在Spring项目中,有时需要新开线程完成一些复杂任务,而线程中可能需要注入一些服务.而通过Spring注入来管理和使用服务是较为合理的方式.但是若直接在Thread子类中通过注解方式注入Bean是无 ...
- HTTP的请求方法
. OPTIONS - 获取服务器支持的HTTP请求方法: 用来检查服务器的性能.如:AJAX进行跨域请求时的预检,需要向另外一个域名的资源发送一个HTTP O ...
- Git 集成 Araxis Merge 作为比较和合并GUI工具的配置 参考自https://www.kancloud.cn/leviio/git/369125
Git 集成 Araxis Merge Win10下修改git全部配置文件方法Git 集成 Araxis Merge 作为比较和合并GUI工具的配置 那global对应的 ,gitconfig文件在哪 ...
- git 报错fatal: not a git repository (or any of the parent directories): .git
产生原因:一般是没有初始化git本地版本管理仓库,所以无法执行git命令 解决方法:操作之前执行以下命令行: git init 初始化git,即可解决:
- Vue中断axios请求-切换页面+重复请求
切换页面时中断 一.概述 在Vue单页面开发过程中,遇到这样的情况,当我切换页面时,由于上一页面请求执行时间长,切换到该页面时,还未执行完,这时那个请求仍会继续执行直到请求结束,此时将会影响页面性能, ...