pyhton 网络爬取软考题库保存text

#-*-coding:utf-8-*-
#参考文档
#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-all
import requests
import re
from bs4 import BeautifulSoup
html = requests.get('https://m.cnitpm.com/exam/ExamST1_1031655.htm/')
soup = BeautifulSoup(html.text,'lxml')
ulTag=soup.find_all('ul','tit')
#计数器每次调用加1
def create_counter():
    def increase():         #定义一个还有自然数算法的生成器,企图使用next来完成不断调用的递增
        n = 0
        while True:
            n = n+1
            yield n
    it = increase()        #一定要将生成器转给一个(生成器)对象,才可以完成,笔者第一次做,这里一直出问题,
    def counter():        #再定义一内函数
        return next(it) #调用生成器的值,每次调用均自增
    return counter
counter_ = create_counter()   #用变量来指向(闭包函数返回的函数)
#保存文件
def save(filename, contents):
    #print(counter_())
    fh = open(filename, 'a+', encoding='utf-8')
    #print(str(counter_())+contents.strip()+'\n')
    fh.write(str(counter_())+'、'+contents.strip()+'\n')
    fh.close()

###################################网络爬取页面分析
for item in ulTag:
    a_temp=item.find_all('a')
    #print(a_temp)
    for aitem in a_temp:
        #print (aitem.get('href'))
        html2 = requests.get(aitem.get('href'))
        #解决乱码问题
        html2.encoding = 'utf-8'
        soup2 = BeautifulSoup(html2.text, 'lxml')
        divTag = soup2.find_all('div', 'tm-box')
        for divitem in divTag:
          #print(divitem.get_text())
          #保存到文档
          save('G:/aa/qa.txt',divitem.get_text())
        #print(divTag.replace('[<div class="tm-box">', ''))

pyhton 网络爬取软考题库保存text的更多相关文章

爬取软考试题系列之ip自动代理
马上5月份有个软件专业等级考试,以下简称软考,为了更好的复习备考,我打算抓取www.rkpass.com网上的软考试题. 以上为背景. 很久没有更新博客园的博客了,所以之前的代码没有及时的贴出来,咱们 ...
使用Node.js实现简单的网络爬取
由于最近要实现一个爬取H5游戏的代理服务器,隧看到这么一篇不错的文章(http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
python Requests库网络爬取IP地址归属地的自动查询
#IP地址查询全代码import requestsurl = "http://m.ip138.com/ip.asp?ip="try: r = requests.get(url + ...
Python Requests库网络爬取全代码
#爬取京东商品全代码 import requestsurl = "http://item.jd.com/2967929.html"try: r = requests.get(url ...
Python3爬虫(1)_使用Urllib进行网络爬取
网络爬虫又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...
Python-爬虫实战简单爬取豆瓣top250电影保存到本地
爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
Python使用requests爬取一个网页并保存
#导入 requests模块import requests #设置请求头,让网站监测是浏览器 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6. ...

随机推荐

【OpenGL】Shader实例分析（九）- AngryBots中的主角受伤特效
转发请保持地址:http://blog.csdn.net/stalendp/article/details/40859441 AngryBots是Unity官方的一个非常棒的样例.非常有研究价值. 曾 ...
intellij idea 写 Helloworld
http://www.jetbrains.com/idea/webhelp/creating-and-running-your-first-java-application.html Creating ...
CA certificate
1 什么是CA certificate CA证书本质上是一把公钥. 2 为什么需要CA证书是为了避免黑客冒充服务器,服务器通过CA证书证明自己是真的服务器,而不是黑客. 就是说,一旦客户端有了一个服 ...
HDU 5858Hard problem
Hard problem Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Tota ...
cookie应用（一周内免登陆）
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...
[Swift通天遁地]四、网络和线程-(14)创建一个Socket服务端
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
Java中JPS命令监控
很多人在学习java的时候只是对java粗略的学了一遍,很少有人能了解jvm层面的一些东西,比如我们想看目前有多少个java进程,可以在命令行执行jps.下面我们来说说jps的一些详细的用法. jps ...
Vue中nextTick()解析
最近,在开发的时候遇到一个问题,让我对vue中nextTick()的用法加深了了解- 下面是在组件中引用的一个拖拽的组件: <vue-draggable-resizable class=&quo ...
微信小程序的wxml文件和wxss文件在webstrom的支持
webstrom默认不支持wxml文件和wxss文件,所以要进入设置里面手动添加支持. 对wxml文件的支持: 文件 -> 设置 -> 编辑器 -> 文件类型, 然后选择XML文件, ...
CentOS 7.0 firewall防火墙关闭firewall作为防火墙，这里改为iptables防火墙
CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙步骤: 1.先检查是否安装了: iptables service iptables status 2.安装ip ...

pyhton 网络爬取软考题库保存text

pyhton 网络爬取软考题库保存text的更多相关文章

随机推荐

热门专题