2019-05-19 Python之第一个爬虫和测试

一.使用request和get访问某个网页20次并且打印返回状态，内容

　　扩展：常见状态码含义 200 - 服务器成功返回网页，404 - 请求的网页不存在，403(禁止)服务器拒绝请求，404(未找到)服务器找不到请求的网页，503 - 服务器超时，3xx (重定向)

　（1）request库简介：处理HTTP请求的第三方库，建立在urllib3库的基础上

　（2）常用函数 get(url[,timeout = n ])， post

　　　　　　　　 delete,head,options,put等等

　　（3）status_code返回状态。 text返回字符串形式。encoding返回编码方式。content返回二进制形式。注：response.text是解过码的字符串(比如html代码)。当requests发送请求到一个网页时，requests库会推测目标网页的编码，并对其解码，转为字符串(str)。这种方法比较容易出现乱码。

　　（4）实例代码

import requests

r = requests.get('https://www.sogou.com/', timeout = 4) #使用get方式请求搜狗网站

print("状态码 = {}".format( r.status_code))#输出状态码

print("text内容 = {}".format(r.text))

print("编码方式 = {}".format(r.encoding))

print("二进制形式 = {}".format(r.content))

　　（5）输出结果：

状态码 = 200

。。。。。。。。。。。。。。。。省略

编码方式 = UTF-8

二进制形式 = b'<!DOCTYPE。。。。。。。。。。。。省略

　　（6）测试连续访问20次的结果

import requests

for i in range(200):

    r = requests.get('https://www.baidu.com/') #使用get方式请求搜狗网站

    print("状态码 = {}".format(r.status_code))  # 输出状态码

#print("text内容 = {}".format(r.text))

print("编码方式 = {}".format(r.encoding))

print("二进制形式 = {}".format(r.content))

二.使用beautifulsoup4解析HTML页面格式，提取有用信息

　　（1）beautifulsoup4库的简介：解析和处理HTML和XML

　　（2）常用函数head获取<head>内容,title,body,p第一个<p>内容,strings所有程序在web上的字符串，即标签的内容,stripped_strings所有呈现在web上的非空字符串

　　（3）示例

三.爬取中国大学排名

from bs4 import BeautifulSoup

import requests

import pandas as pd

allUniv =  []

def getHTMLText(url):

    try:

        r = requests.get(url, timeout=10)

        r.raise_for_status()

        r.encoding = 'utf-8'

        return r.text

    except:

        return ""

def filUnivList(soup):

    data = soup.find_all('tr')

    for tr in data:

        ltd = tr.find_all('td')

        if len(ltd) == 0:

            continue

        singleUniv = []

        for td in ltd:

            singleUniv.append(td.string)

        allUniv.append(singleUniv)

        write_csv(allUniv)

def write_csv(list):

    name = ['排名', '学校名称', '省份', '总分', '生源质量（新生高考成绩得分）', '培养结果（毕业生就业率）', '社会声誉（社会捐赠收入·千元）', '科研规模（论文数量·篇）',\

            '科研质量（论文质量·FWCI）', '顶尖成果（高被引论文·篇）', '顶尖人才（高被引学者·人）', '科技服务（企业科研经费·千元）', '成果转化（技术转让收入·千元）', '学生国际化（留学生比例）']

    name2 = ['a', 'b', 'c']

    test = pd.DataFrame(columns=name, data=list)

    test.to_csv('e:/testcsv.csv', encoding='gbk')

def main():

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'

    html = getHTMLText(url)

    soup = BeautifulSoup(html, "html.parser")

    filUnivList(soup)

    print("完成")

main()

效果图：

2019-05-19 Python之第一个爬虫和测试的更多相关文章

孤荷凌寒自学python第八十天开始写Python的第一个爬虫10
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进 ...
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3
孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2
孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第七十一天开始写Python的第一个爬虫
孤荷凌寒自学python第七十一天开始写Python的第一个爬虫 (完整学习过程屏幕记录视频地址在文末) 在了解了requests模块和BeautifulSoup模块后,今天开始真正写一个自己的爬虫代 ...
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针 ...
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模 ...

随机推荐

python如何通过正则表达式一次性提取到一串字符中所有的汉字
1.python如何通过正则表达式一次性提取到一串字符中所有的汉字 https://blog.csdn.net/py0312/article/details/93999895 说明:字符串前的 “ r ...
扫描工具-Arachni
./arachni_console #进入命令行模式 ./arachni_web #启用web服务,进入web操作模式 [属于web 应用] http:/ ...
Java基础语法(1)-关键字与保留字
title: Java基础语法(1)-关键字与保留字 blog: CSDN data: Java学习路线及视频 1.关键字关键字(keyword)的定义和特点定义:被Java语言赋予了特殊含义,用 ...
excel中存储的icount,赋值完之后
最近需要实现一个功能,为了确保每次函数运行的时候count是唯一的,所以想读取excel中存储的icount,赋值完之后对其进行+1操作,并存入excel文件,确保下次读取的count是新的,没有出现 ...
使用Keras进行深度学习：（二）CNN讲解及实践
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 现今最主流的处理图像数据的技术当属深度神经网络了,尤其是卷积神经网 ...
ABP.Net Core 小白使用教程
自己简单的记录一下 1.到官网下载模版项目我下载的是那个前后分离Vue版 2.用VS2017打开,将Web.Host设置为启动项(Core 2.1要看自己VS下载了这个版本没) 3.设置数据库连接 ...
setAttribute 方法
IE8及以下不支持 setAttribute用来修改dom标签上的属性比如(onclick); getAttribute用来获取dom标签上的属性
Go语言库系列之email
导读大家好我是平也,今天跟大家介绍一款用来发送邮件的Go语言库email,目前星星1.3k,非常好用. 极速上手准备工作初始化项目 go get github.com/jordan-wright ...
Java数据结构与排序
一.引子:想要给ArrayList排序却发现没有排序方法?你有两种选择: 1.换用TreeSet: 2.使用Collection.sort(List<T> list) ...
解读windows认证
0x00 前言 dll劫持的近期忙,没时间写,先给大家写个windows认证的水文. 0x01 windows认证协议 windows上的认证大致分为本地认证,ntlm协议,和Kerberos协议. ...

2019-05-19 Python之第一个爬虫和测试

2019-05-19 Python之第一个爬虫和测试的更多相关文章

随机推荐

热门专题