最近好多小伙伴说想搞个项目实战类的,我就花了一点时间做了一个爬虫项目(在代码复制的时候可能会有点问题,缩格一下就没有问题了)

想要获取更多源码或者答疑或者或者交流学习可以加群:725479218


# -*- coding:utf-8 -*- from function.data_tool import clean_data import hashlib import furl.furl from crawlers.downloader import Downloaderfrom function.parse_tool import xpath_parsefrom function.database_tool import auto_sqlseve down=Downloader(proxy='http://104.224.138.224:8888/proxy') a = {'吉林': '22', '河北': '13', '陕西': '61', '山西': '14', '青海': '63', '湖南': '43', '广东': '44', '安徽': '34', '四川': '51', '江西': '36', '浙江': '33', '贵州': '52', '新疆': '65', '内蒙古': '15', '西藏': '54', '江苏': '32', '广西': '45', '湖北': '42', '海南': '46', '河南': '41', '山东': '37', '福建': '35', '云南': '53', '上海': '31', '北京': '11', '天津': '12', '甘肃': '62', '宁夏': '64', '黑龙江': '23', '重庆': '50', '辽宁': '21'} for province in b: for subject in c: field_info=[] key_word=a[province] reform_url.args['type']=subject reform_url.args['province']=key_word response=down.get(url=reform_url,typ='text',encoding='utf-8') htmlcode = eval(clean_data.clean_space(response))['htmlStr'] xpath_html = xpath_parse.text_tolxml(htmlcode) year = xpath_html.xpath('string(//th[normalize-space(text())="录取批次"]/..)').replace('\r', '').replace('\t','').replace( '录取批次', '').replace(' ', '') year_split = year.split() ben_yi = xpath_html.xpath('string(//td[normalize-space(text())="本科第一批"]/..)').replace('\r', '').replace('\t', '').replace( '本科第一批', '').replace(' ', '') ben_yi_split = ben_yi.split() ben_er = xpath_html.xpath('string(//td[normalize-space(text())="本科第二批"]/..)').replace('\r', '').replace('\t', '').replace( '本科第二批', '').replace(' ', '') ben_er_split = ben_er.split() ben_san = xpath_html.xpath('string(//td[normalize-space(text())="本科第三批"]/..)').replace('\r', '').replace('\t', '').replace( '本科第三批', '').replace(' ', '') ben_san_split = ben_san.split() zhuan_yi = xpath_html.xpath('string(//td[normalize-space(text())="专科第一批"]/..)').replace('\r', '').replace('\t', b = ['安徽', '北京', '重庆', '福建', '甘肃', '贵州', '广东', '广西', '湖北', '海南', '黑龙江', '湖南', '河南', '河北', '吉林', '江西', '江苏', '辽宁', '宁夏', '内蒙古', '青海', '山西', '山东', '陕西', '四川', '上海', '天津', '西藏', '新疆', '云南', '浙江'] c=['wen','li'] url='https://www.wmzy.com/api/score/getScoreList?type=wen&province=33' reform_url=furl.furl(url) W=auto_sqlsever.Mssql(database='provincescore',datatable=['ScoreProvince']) '').replace( '专科第一批', '').replace(' ', '') zhuan_yi_split = zhuan_yi.split() zhuan_er = xpath_html.xpath('string(//td[normalize-space(text())="专科第二批"]/..)').replace('\r', '').replace('\t', '').replace( '专科第二批', '').replace(' ', '') zhuan_er_split = zhuan_er.split() if 'wen' in subject: subject='文科' else: subject='理科' print(zhuan_yi_split,zhuan_er_split,ben_san_split,ben_er_split,ben_yi_split) provincemd5=[hashlib.md5(province.encode()).hexdigest()]*8 tiqian=[0]*8 field_info.extend([[province]*8,provincemd5,year_split,[subject]*8,tiqian,ben_yi_split,ben_er_split,ben_san_split,zhuan_yi_split,zhuan_er_split]) W.insert_data(field_info)

python伪代码之爬取完美志愿全国历年文理分数线运行代码持续更新的更多相关文章

  1. Python 爬取的类封装【将来可能会改造,持续更新...】(2020年寒假小目标09)

    日期:2020.02.09 博客期:148 星期日 按照要求,我来制作 Python 对外爬取类的固定部分的封装,以后在用 Python 做爬取的时候,可以直接使用此类并定义一个新函数来处理CSS选择 ...

  2. [python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

    [python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

  3. Python爬虫之爬取慕课网课程评分

    BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...

  4. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

  5. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  6. from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

  7. 如何手动写一个Python脚本自动爬取Bilibili小视频

    如何手动写一个Python脚本自动爬取Bilibili小视频 国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...

  8. 利用Python网络爬虫爬取学校官网十条标题

    利用Python网络爬虫爬取学校官网十条标题 案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...

  9. Python:将爬取的网页数据写入Excel文件中

    Python:将爬取的网页数据写入Excel文件中 通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...

随机推荐

  1. C语言字符串读入函数笔记

    gets(str)函数和scanf("%s",str)区别: 转自:https://zhidao.baidu.com/question/290403568.html 二者都是从终端 ...

  2. element-ui 的el-button组件中添加自定义颜色和图标

    我使用的element-ui的版本是V1.4.13. 如上图所示,如果使用el-button,加颜色是可以通过设置type属性的值,加图标就设置icon属性的值. 现在产品给了一个需求,就是自定义的很 ...

  3. 纯小白入手 vue3.0 CLI - 3.2 - 路由的初级使用

    vue3.0 CLI 真小白一步一步入手全教程系列:https://www.cnblogs.com/ndos/category/1295752.html 尽量把纷繁的知识,肢解重组成为可以堆砌的知识. ...

  4. typedef struct LNode命名结构指针(线性表的链式存储)

    一.typedef 关键字 1. 简介: typedef工具是一个高级数据特性,利用typedef可以为某一些类型自定义名称. 2. 工作原理: 例如我们定义链表的存储结构时,需要定义结点的存储数据元 ...

  5. 腾讯X5WebView集成及在移动端中使用

    工作中经常涉及H5网页的加载工作,最多使用的就是安卓系统控件WebView,但是当网页内容比较多的时候,需要等待很久才能加载完,加载完后用户才能看到网页中的内容,这样用户需要等很久,体验很差. 那能不 ...

  6. window服务器上mongodb的安装与如何将mongodb设置为服务,为mongodb设置管理用户,mongodb连接字符串配置

    最近公司有一个项目模块让用nosql-mongodb替换了,故,对mongodb做了一点研究,然后分享一下! 1.首先说一下安装时的坑 下载mongodb,如果你从官网下载,将会是一件很慢的事情,在公 ...

  7. C语言程序试题

    一个无向连通图G点上的哈密尔顿(Hamiltion)回路是指从图G上的某个顶点出发,经过图上所有其他顶点一次且仅一次,最后回到该顶点的路劲.一种求解无向图上哈密尔顿回路算法的基础实现如下: 假设图G存 ...

  8. Python中DataFrame关联

    df = pd.merge( df, # 左 wzplbm, # 右 left_on = ['WZBM','ZBWZMC'], # 左DataFrame匹配列 right_on = ['WZPLBM' ...

  9. [20170623]利用传输表空间恢复数据库2.txt

    [20170623]利用传输表空间恢复数据库2.txt --//继续上午的测试,测试truncate,是否可行,理论讲应该没有问题.我主要的目的测试是否要切换日志.--//参考链接 : http:// ...

  10. jmeter利用自身代理录制脚本

    在利用代理录制脚本时一定要安装java jdk,不然不能录制的. 没有安装过java jdk安装jmeter后打开时会提示安装jdk,但是mac系统中直接打开提示安装jdk页面后下载的java并不是j ...