嵩天老师python网课爬虫实例1的问题和解决方法
一,AttributeError: 'NoneType' object has no attribute 'children', 网页'tbody'没有子类
很明显,报错的意思是说tbody下面没有children,说明我们在gethtmltext的时候可能出现了问题,可以用print(r.status.code)测试,发现并不是200,print(r.raise_for_status())返回的值也是None ,其次 gethtmltext返回的也是 error,说明我们并没有成功下载网页源码。错误原因猜测
1,zuihaodaxue.com网站采取了反爬机制
2,由于教程录制时间久远,url网址错误
第一种情况,加上代理头和cookies测试,发现一样提示 AttributeError: 'NoneType' object has no attribute 'children' ,最后发现是我自己 r.text 写成了 r.txt
def gethtmltext(url):
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0"}
cooks={"cookies":"Hm_lvt_2ce94714199fe618dcebb5872c6def14=1558142987; Hm_lpvt_2ce94714199fe618dcebb5872c6def14=1558147316"}
try:
r=requests.get(url,headers=headers,cookies=cooks,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "error"
2,发现老师给的网址是zuihaodaxue.cn,现在网站更新变成了.com,所以换成 http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html 即可解决问题
如果还存在问题那么大部分原因可能是单词拼写错误。
以下为正确代码:
def gethtmltext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "error" if __name__ == '__main__':
url="http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html"
二,format()函数格式错误——ValueError: Invalid format specifier
以下代码错误:提示ValueError: Invalid format specifier
def printunivlist(urlist,num):
tplt = "{0:^6}\t{1:{3}^10}\t{2:^10}\t{3:^10}"
print(tplt.format("排名","学校","地区","总分",chr(12288)))
for i in range(num):
u = urlist[i]
print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))
以下代码正确:
def printunivlist(urlist,num):
tplt = "{0:^6}\t{1:{4}^10}\t{2:^10}\t{3:^10}"
print(tplt.format("排名","学校","地区","总分",chr(12288)))
for i in range(num):
u = urlist[i]
print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))
可以看出,仅仅是1:{3}^10和1:{4}^10的差别。
原因分析:
第二行改为#这里添加了tplit = "{0:^10}\t{1:{3}^10}\t{2:^10}" ;{3:^10}”你添加了地区,相应的作为填充不足10个字符长度的chr(12288)已经不是3了,而是4。
在这里很多同学肯定会问{1:{3}^10},填充为什么是填充3个或4个,为什么是在1号位填充:
第一,中英文全半角造成不对齐的原因产生在1号位;
第二,分析实例【Python爬取中国前20强大学】前20大学的结果,为排名、学校名称、总分,3个地方需填充,即为3;
第三:后面加入省市,为排名、学校名称、总分、省市,4个地方需要填充,即为4;
转载来源:https://blog.csdn.net/Andone_hsx/article/details/84025828
最后贴上我的代码:
import requests
from bs4 import BeautifulSoup
import bs4 def gethtmltext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "error" def fillunivlist(urlist,html):
soup = BeautifulSoup(html,"html.parser")
for tr in soup.find("tbody").children:
if isinstance(tr,bs4.element.Tag):
tds = tr("td") #将所有标签存为一个列表
urlist.append([tds[0].string,tds[1].string,tds[2].string,tds[4].string]) def printunivlist(urlist,num):
tplt = "{0:^6}\t{1:{4}^10}\t{2:^10}\t{3:^10}"
print(tplt.format("排名","学校","地区","总分",chr(12288)))
for i in range(num):
u = urlist[i]
print(tplt.format(u[0],u[1],u[2],u[3],chr(12288))) if __name__ == '__main__':
unifo=[]
url="http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html"
html=gethtmltext(url)
fillunivlist(unifo,html)
printunivlist(unifo,20)

嵩天老师python网课爬虫实例1的问题和解决方法的更多相关文章
- Python提示AttributeError 或者DeprecationWarning: This module was deprecated解决方法
		
Python提示AttributeError 或者DeprecationWarning: This module was deprecated解决方法 在使用Python的sklearn库时,发现sk ...
 - Sublime2编译Python程序EOFError:EOF when reading a line解决方法【转】
		
在Sublime2中编译运行Python文件时,如果代码中包含用户输入的函数时(eg. raw_input()),Ctrl+b编译运行之后会提示以下错误: 解决方法:安装SublimeREPL打开Su ...
 - python网课自动刷课程序-------selenium+chromedriver
		
python的强大之处就在于有许多已经写好的功能库提供,这些库强大且易用,对于写一些有特定功能的小程序十分方便. 现在就用pyhton的selenium+谷歌游览器写一个可以自动刷课的程序,以智慧树上 ...
 - Python面向对象-类、实例的绑定属性、绑定方法和__slots__
		
绑定属性 从之前的文章中,我们知道python是动态语言——实例可以绑定任意属性. 那如果实例绑定的属性和类的属性名一样的话,会是什么情况呢? >>> class Student(o ...
 - Pyhton网络爬虫实例_豆瓣电影排行榜_Xpath方法爬取
		
-----------------------------------------------------------学无止境------------------------------------- ...
 - 在Python中调用glutInit遇到OpenGL.error.NullFunctionError的解决方法
		
在window10 64bit + Python环境下,通过pip install PyOpenGL成功之后,无奈执行到glutInit()时候总是报错. OpenGL.error.NullFunct ...
 - python报错:SyntaxError: Non-ASCII character '\xe5'的解决方法
		
最近在学习机器学习,上面的代码都是一些python代码,对于python只是会一些基础性的东西,刚才就遇到了一个比较low的问题,但是还是记录一下吧. 在python代码中出现了中文,但是我又把# - ...
 - SqlServer 由于未在SqlServer的此实例上安装复制组件解决方法
		
sqlserver2005在复制订阅时出现: “由于未在SqlServer的此实例上安装复制组件,Microsoft SQL server 无法访问这些组件,请参阅SQL Server……” 解决方法 ...
 - Python默认编码错误SyntaxError: Non-ASCII character '\xe5'之解决方法
		
在编写Python时,当使用中文输出或注释时运行脚本,会提示错误信息: SyntaxError: Non-ASCII character '\xe5' in file ******* 解决方法: py ...
 
随机推荐
- Linux内存页大小
			
当使用内存时, 记住一个内存页是 PAGE_SIZE 字节, 不是 4KB. 假定页大小是 4KB 并且 硬编码这个值是一个 PC 程序员常见的错误, 相反, 被支持的平台显示页大小从 4 KB 到 ...
 - Eclipse GlassFish Server 配置
			
一.下载GlassFish Server 通过如下地址下载合适版本: http://glassfish.java.net/public/downloadsindex.html htt ...
 - You are using the runtime-only build of Vue where the template compiler is not available. Either pre-compile the templates into render functions, or use the compiler-included build.
			
异常 You are using the runtime-only build of Vue where the template compiler is not available. Either ...
 - 云栖大会压轴好戏 阿里云发布视频云V5计划与系列新产品
			
9月25 - 27日,2019云栖大会如期召开.在大会最后一天下午,阿里云智能视频云分论坛为今年的云栖大会献上了一场精彩的压轴好戏. 视频云V5计划发布 使能生态合作伙伴 会上,阿里云智能研究员金戈进 ...
 - Spring Boot + Docker + K8S 简单示例
			
前言 最近看了看k8s,感觉用这个管理docker确实比自己写一坨脚本进步太多了,简直不是一个次原的东西. 看着k8s的官方文档随手写了个小Demo,一个基于k8s的spring boot服务. 代码 ...
 - 洛谷$P4249\ [WC2007]$剪刀石头布 网络流
			
正解:网络流 解题报告: 传送门$QwQ$ 题目大意其实就说有一个$n$个节点的有向完全图,然后部分边的方向已经给定了,要求确定所有边的方向使三元环数目有$max$.这里三元环的定义是说三条边的方向一 ...
 - 开发工具篇:JAVA和IntelliJ IDEA相恋
			
开发工具篇:JAVA和IntelliJ IDEA相恋 idea是什么? IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之 ...
 - SpringBoot2 整合 Zookeeper组件,管理架构中服务协调
			
本文源码:GitHub·点这里 || GitEE·点这里 一.Zookeeper基础简介 1.概念简介 Zookeeper是一个Apache开源的分布式的应用,为系统架构提供协调服务.从设计模式角度来 ...
 - 从0开发3D引擎(六):函数式反应式编程及其在引擎中的应用
			
目录 上一篇博文 介绍函数式反应式编程 函数式反应式编程学习资料 函数式反应式编程的优点与缺点 优点 缺点 异步处理的其它方法 为什么使用Most库 引擎中相关的函数式反应式编程知识点 参考资料 大家 ...
 - rsync配置两台服务器之间的文件备份(同步)
			
rsync配置两台服务器之间的文件备份(同步) 前情提要 环境: 192.168.1.2 主服务器 centos 7.7 192.168.1.3 备份服务器 centos 7.7 rsync 安装(两 ...