python BeautifulSoup 爬虫运行出现 exited with code -1073741571

首先，exited with code -1073741571意思是栈溢出。具体可以看https://blog.csdn.net/vblittleboy/article/details/6613815

它的前一个错误是程序递归深度过深。

但我没有在函数里用递归？

python认为你进入一个函数就进入更深一层的递归。

import sys#出现递归深度太深的问题？

sys.setrecursionlimit(100000000)#把递归深度设深点。

可以解决，

但又出现栈溢出。在隔行输出调试法下我发现是<class 'bs4.element.Tag'>类型强制转换str处退出的程序。也就是说，它导致了栈溢出。

soup = BeautifulSoup(html, 'html.parser')

pbiaoqian = soup.find('p')

print(str(pbiaoqian))#有问题？

在这个错误之前，有一个问题，就是一个htm页面有很多<p>标签，但BeautifulSoup只要找一个就全在里面了。

之前用

for pbiaoqian in soup.find_all('p'):

    #prind(pbiaoqian.get_text())#调用方法

    #print(str(pbiaoqian))#或者直接转换打印

    print(pbiaoqian)#这样也能显示

它输出的结果是find到的第一个<p>标签，从头输出到尾。第二个输出，find到的第二个<p>标签开始，到尾。......最后一个<p>标签。

言归正传。

我推测，栈溢出是因为调用强制类型转换程序次数过多导致的，或者pbiaoqian里内容过多类型转换处理不了。

那么，解决方法就是：

1.报什么错从哪里解决。

　　但windows修改栈空间大小要在编译器里修改，因为它是由编译器自动管理的。但F:\PyCharm Community Edition 2018.2.4\bin\pycharm.exe.vmoptions里尽是看不懂的参数，前2个好像还是系统给编译器分配的内存设置。

　　File->settings瞎点了半天，也没有找到Stack有关的单词。

2.让str的强制类型转换能一次转更多。

　　如果能像设置递归深度一样设置栈空间大小就好了，

threading.stack_size(200000000)

　　不过用起来好像没什么效果，还是老样子。

3.或者让BeautifulSoup一次不find那么多，或者把find到的拆分成许多块。

　　str拆分还能百度到方法，BeautifulSoup文档里给它4个变量的介绍少得可怜，也没有百度到。

思考一天未果。

也许你有同样困扰，也许你能给我答案，可以在下面评论。

python BeautifulSoup 爬虫运行出现 exited with code -1073741571的更多相关文章

python beautifulsoup爬虫
爬虫这个听起来很 hack 的名字,是我学习 python 的诱因.当 python 基础学习到一定程度(基本语法,数据类型掌握) 就可以开启自己的小爬虫了.毕竟实践才是提高的最快途径.废话说完了,下 ...
python beautifulsoup爬虫学习
BeautifulSoup(page_html, "lxml").select(),这里可以通过浏览器开发者模式选择copy selector,并且并不需要完整路径. github ...
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
第三百五十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter
第三百五十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行.scrapy-splash. splinter 1.chrome谷歌浏览器无界面运行 chrome ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...

随机推荐

node-express脚手架生成的项目中实现浏览器缓存
前言: 最近在做基于 node-express 的个人站点朵朵视野 ,在站点发布之后自己在访问测试的过程中发现站点是没有缓存机制的,这样就导致每次访问站点都需要重新去加载资源,很消耗资源以及用户体验 ...
Selenium(一)：原理与安装、简单的使用
1. selenium原理 1.1 selenium介绍 Selenium是一个Web应用的自动化框架. 通过它,我们可以写出自动化程序,像人一样在浏览器里操作web界面. 比如点击界面按钮,在文本框 ...
zabbix snmp监控与主被模式
1.snmp基础介绍 snmp全称是简单网络管理协议为什么要用? 路由器交换机无法安装agent程序,但是都提供snmp服务端, 我们可以使用zabbix的snmp方式监控snmp服务端的数据 2. ...
js相同的正则多次调用test()返回的值却不同
项目中文件上传需要验证文件的格式,第一次正常,第二次就验证不通过了.在验证的地方console.log()两遍,发现结果不一样 !!! 正则和文件名都没变,但是两次的验证结果不同. this.reg ...
for循环使用element的折叠面板遇到的问题-1
首先,效果是点击添加折叠面板,折叠面板的title右侧是关闭的小按钮,每次添加的面板都自动展开,其他的面板自动关闭,但其中发现一个问题是,每次点击关闭的时候,虽然上一个面板被关闭了,但他的下一个会自动 ...
更改组织属性-以更改maxrecordsforexporttoexcel为例
关注本人微信和易信公众号: 微软动态CRM专家罗勇 ,回复232或者20161101可方便获取本文,同时可以在第一间得到我发布的最新的博文信息,follow me!我的网站是 www.luoyong. ...
Android 图表控件的使用
一个简单不复杂的图表控件ChartLibs,目前仅仅提供三种图表控件:饼图.条形图和线性图.其展示效果如下: 使用方法很简单,直接通过gradle导入ChartLibs依赖就可以,在build.gr ...
Data Management Technology(1) -- Introduction
1.Database concepts (1)Data & Information Information Is any kind of event that affects the stat ...
[日常] windows下使用vscode配合xebug调试php脚本
windows下使用vscode配合xebug调试php脚本要下载有php_xebug.dll扩展的版本,最新版可能没有这个扩展,php7.3应该是有的,php7.3.4好像没有默认是不加载这个扩展 ...
Linux自动同步时间
一.安装时间同步工具 yum -y install ntp 二.同步时间 1.修改时区 cp -y /usr/share/zoneinfo/Asia/Shanghai /etc/localtime v ...

python BeautifulSoup 爬虫运行出现 exited with code -1073741571

python BeautifulSoup 爬虫运行出现 exited with code -1073741571的更多相关文章

随机推荐

热门专题