python伪代码之爬取完美志愿全国历年文理分数线运行代码持续更新
最近好多小伙伴说想搞个项目实战类的,我就花了一点时间做了一个爬虫项目(在代码复制的时候可能会有点问题,缩格一下就没有问题了)
想要获取更多源码或者答疑或者或者交流学习可以加群:725479218
# -*- coding:utf-8 -*- from function.data_tool import clean_data
import hashlib
import furl.furl
from crawlers.downloader import Downloaderfrom
function.parse_tool import xpath_parsefrom
function.database_tool import auto_sqlseve
down=Downloader(proxy='http://104.224.138.224:8888/proxy')
a = {'吉林': '22', '河北': '13', '陕西': '61', '山西': '14', '青海': '63', '湖南': '43', '广东': '44', '安徽': '34', '四川': '51',
'江西': '36', '浙江': '33', '贵州': '52', '新疆': '65', '内蒙古': '15', '西藏': '54', '江苏': '32', '广西': '45', '湖北': '42',
'海南': '46', '河南': '41', '山东': '37', '福建': '35', '云南': '53', '上海': '31', '北京': '11', '天津': '12', '甘肃': '62',
'宁夏': '64', '黑龙江': '23', '重庆': '50', '辽宁': '21'}
for province in b:
for subject in c:
field_info=[]
key_word=a[province]
reform_url.args['type']=subject
reform_url.args['province']=key_word
response=down.get(url=reform_url,typ='text',encoding='utf-8')
htmlcode = eval(clean_data.clean_space(response))['htmlStr']
xpath_html = xpath_parse.text_tolxml(htmlcode)
year = xpath_html.xpath('string(//th[normalize-space(text())="录取批次"]/..)').replace('\r', '').replace('\t','').replace(
'录取批次', '').replace(' ', '')
year_split = year.split()
ben_yi = xpath_html.xpath('string(//td[normalize-space(text())="本科第一批"]/..)').replace('\r', '').replace('\t',
'').replace(
'本科第一批', '').replace(' ', '')
ben_yi_split = ben_yi.split()
ben_er = xpath_html.xpath('string(//td[normalize-space(text())="本科第二批"]/..)').replace('\r', '').replace('\t',
'').replace(
'本科第二批', '').replace(' ', '')
ben_er_split = ben_er.split()
ben_san = xpath_html.xpath('string(//td[normalize-space(text())="本科第三批"]/..)').replace('\r', '').replace('\t',
'').replace(
'本科第三批', '').replace(' ', '')
ben_san_split = ben_san.split()
zhuan_yi = xpath_html.xpath('string(//td[normalize-space(text())="专科第一批"]/..)').replace('\r', '').replace('\t',
b = ['安徽', '北京', '重庆', '福建', '甘肃', '贵州', '广东', '广西', '湖北', '海南', '黑龙江', '湖南', '河南', '河北', '吉林', '江西', '江苏', '辽宁', '宁夏',
'内蒙古', '青海', '山西', '山东', '陕西', '四川', '上海', '天津', '西藏', '新疆', '云南', '浙江']
c=['wen','li']
url='https://www.wmzy.com/api/score/getScoreList?type=wen&province=33' reform_url=furl.furl(url)
W=auto_sqlsever.Mssql(database='provincescore',datatable=['ScoreProvince'])
'').replace(
'专科第一批', '').replace(' ', '')
zhuan_yi_split = zhuan_yi.split()
zhuan_er = xpath_html.xpath('string(//td[normalize-space(text())="专科第二批"]/..)').replace('\r', '').replace('\t',
'').replace(
'专科第二批', '').replace(' ', '')
zhuan_er_split = zhuan_er.split()
if 'wen' in subject:
subject='文科' else:
subject='理科' print(zhuan_yi_split,zhuan_er_split,ben_san_split,ben_er_split,ben_yi_split)
provincemd5=[hashlib.md5(province.encode()).hexdigest()]*8 tiqian=[0]*8 field_info.extend([[province]*8,provincemd5,year_split,[subject]*8,tiqian,ben_yi_split,ben_er_split,ben_san_split,zhuan_yi_split,zhuan_er_split])
W.insert_data(field_info)
python伪代码之爬取完美志愿全国历年文理分数线运行代码持续更新的更多相关文章
- Python 爬取的类封装【将来可能会改造,持续更新...】(2020年寒假小目标09)
日期:2020.02.09 博客期:148 星期日 按照要求,我来制作 Python 对外爬取类的固定部分的封装,以后在用 Python 做爬取的时候,可以直接使用此类并定义一个新函数来处理CSS选择 ...
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
- Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
- 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
- from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
- 如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频 国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
- 利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题 案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
- Python:将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中 通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
随机推荐
- Tarjan中栈的分析与SLT栈的实现
首先看一下手写的栈: do{ printf("%d ",stack[index]); visit[stack[index]]=; index--; }]);//出栈,并且输出. p ...
- SD从零开始64-特异的业务交易(Special Business Transactions)
紧迫订单Rush Orders 紧迫订单和现金销售是用在从工厂销售流程可能用于当客户需要求即刻从货场获得他们的货物时的销售凭据种类: 在即刻交货的销售凭据种类中,即刻交货符号和交货种类DF是设置的:当 ...
- Salesforce数据安全简介
数据安全级别 Salesforce中将数据安全分为若干等级: 组织级别:组织级别的安全设定在整个系统内部都有效.这是最广泛的级别 对象级别:对象级别的安全设定可以限制用户对于对象的权限 字段级别:字段 ...
- Mobile First! Wijmo 5 之 架构
CSDN移动开发频道率先报道的<Mobile First!jQuery UI组件集Wijmo五年最大更新>引起开发者极大关注. 本文就开发者关心的话题之一架构,展开叙述. Wijmo 5是 ...
- ssms2014和ssms2016版本错误定位的区别
偶尔对比起2016以下的版本(比如ssms2014),ssms2016有一个小地方有区别.就是报错的行号有区别 举个例子,下面同样的语句在ssms2014和ssms2016里面运行.就是如下的效果 C ...
- Linux 目录结构学习与简析 Part2
linux目录结构学习与简析 by:授客 QQ:1033553122 ---------------接Part 1-------------- #1.查看CPU信息 #cat /proc/cpuinf ...
- 第三方apk内置因签名导致SystemUI未启动启动问题案例分析
这个问题是刷完机正常开机后,发现手机无状态栏,下拉通知栏,按音量键也无法出现VolumeDialog,开始看到这个现象感觉是systemUI未编译到版本中去?或者是在systemserver中syst ...
- [20180316]理解db file parallel read等待事件.txt
[20180316]理解db file parallel read等待事件.txt --//一直对db file parallel read等待事件不理解,因为在实际系统中很少遇到这样的等待事件. S ...
- [20171225]没有备份数据文件的恢复.txt
[20171225]没有备份数据文件的恢复.txt --//别人问的问题,增加了数据文件没有备份,如何恢复,实际上很简单,因为当前控制文件有记录建立时间只要从建立数据文件开始的--//归档日志都存在恢 ...
- 测试中Android与IOS分别关注的点
主要从本身系统的不同点.系统造成的不同点.和注意的测试点做总结 1.自身不同点 研发商:Adroid是google公司做的手机系统,IOS是苹果公司做的手机系统 开源程度:Android是开源的,IO ...