Python-内存泄漏 持续增长 检查点
仅个人目前遇见的内存问题, 可能不适用所有问题
一下只是简单的实例代码, 可能跑不起来, 只是看看
可变变量参数
小例子:
def foo(a, b=[]):
b.append(a)
print b
#
input: foo(1)
output: [1] #
input: foo(2)
output: [1,2]
解释说明:
参考: http://tianshu.xyz/blog/82/
官方文档中的一句话:
Default values are computed once, then re-used.
默认值是被重复使用的
Default parameter values are evaluated when the function definition is executed. This means that the expression is evaluated once, when the function is defined, and that the same “pre-computed” value is used for each call.
所以当默认参数值是可变对象的时候,那么每次使用该默认参数的时候,其实更改的是同一个变量
当python执行def语句时,它会根据编译好的函数体字节码和命名空间等信息新建一个函数对象,并且会计算默认参数的值。函数的所有构成要素均可通过它的属性来访问,比如可以用funcname属性来查看函数的名称。所有默认参数值则存储在函数对象的defaults_属性中,它的值为一个列表,列表中每一个元素均为一个默认参数的值
其中默认参数相当于函数的一个属性
Functions in Python are first-class objects, and not only a piece of code.
我们可以这样解读:函数也是对象,因此定义的时候就被执行,默认参数是函数的属性,它的值可能会随着函数被调用而改变。其他对象不都是如此吗?
其实使用 id(b) 的内存地址就很清楚了
解决:
def foo(a, b=None):
b = b if b is not None else []
b.append(a)
print b # 或者
def foo(b=None):
b = b or []
使用pyquery
小例子:
import requests
from pyquery import PyQuery def demo(url):
html = requests.get(url).text
print(html)
pq_html = PyQuery(html)
item_list = pq_html("#cm_cr-review_list>div[data-hook='review']")
for item in item_list:
iid = PyQuery(item)("div[data-hook='review']").attr("id")
print(iid) if __name__ == "__main__":
url = "评论页面链接"
demo(url)
项目说明
这个是项目中的一部分, 抓取评论的页面:
在将整个页面转为PyQuery的对象后, 提取出评论列表, 然后遍历评论列表, 再将每个评论的html转为PyQuery对象, 也个页面还好, 但是现在目前好像没有单线程爬虫了吧! 结果可想而知
解决方法
在看了PyQuery官方文档后, 发现可以这样:
item_list = pq_html("#cm_cr-review_list>div[data-hook='review']")
for item in item_list.items():
iid = item("div[data-hook='review']").attr("id")
print(iid)
也可以使用xpath
item_list = etree.HTML("#cm_cr-review_list>div[data-hook='review']")
for item in item_list:
iid = item.xpath("//div[@data-hook='review']/@id")
print(iid)
# from lxml import etree
这样直接使用对象来进行提取元素, 会节省很大一部分内存
使用requests session
小例子
import requests class Download(object):
def __init__(self):
self.session = requests.session() def down(self, url, try_time=10):
while try_time:
try:
response = self.session.get(url)
except Exception as e:
print(e)
finally:
try_time -= 1
项目说明
在使用session的时候, 内存会直线上升, 并且没有下降的趋势, 直到内存崩溃, 特别是重试的时候, 目前没有搞懂为什么session会这样? 希望懂的大神解释一下
解决
目前是不使用session, 直接使用requests.get()
求大神赐教
四. 持续更新......
以后遇见的bug, 或者内存泄漏问题都会记录下来, 避免更多人踩坑 :)
也希望大家可以补充自己遇见的大坑
Python-内存泄漏 持续增长 检查点的更多相关文章
- 【原创】python内存泄漏以及python flask框架莫名coredump
1.python内存泄漏 今天在看服务器上的进程时,用top查的时候,发现一个一直跑的脚本程序内存竟然达到了1.6G,这个脚本我有印象,一开始仅占用20M左右,显然是内存泄漏了. 用gc和objgra ...
- 填坑总结:python内存泄漏排查小技巧
摘要:最近服务遇到了内存泄漏问题,运维同学紧急呼叫解决,于是在解决问题之余也系统记录了下内存泄漏问题的常见解决思路. 本文分享自华为云社区<python内存泄漏排查小技巧>,作者:luti ...
- python 内存泄漏调试
Python应用程序内存泄漏的调试 Quake Lee quakelee@geekcn.org 新浪网技术(中国)有限公司 Sina Research & Development Python ...
- 一次python 内存泄漏解决过程
最近工作中慢慢开始用python协程相关的东西,所以用到了一些相关模块,如aiohttp, aiomysql, aioredis等,用的过程中也碰到的很多问题,这里整理了一次内存泄漏的问题 通常我们写 ...
- python内存泄漏
记录: 一个脚本在连续运行后,使用内存越来越大,在循环后手动添加gc.collect()没有作用. 尝试方法: 去除所有函数中当作参数传入的全局变量 使用全局redis对象,不再当作参数传入 循环末尾 ...
- python内存泄漏,python垃圾手动回收,1
部署的舆情系统,内存变大,找原因. 一个小例子. def func(): local_list = list(range(10000000)) func() time.sleep(200) 能够观察到 ...
- python内存泄露memory leak排查记录
问题描述 A服务,是一个检测MGR集群主节点是否发生变化的服务,使用python语言实现的. 针对每个集群,主线程会创建一个子线程,并由子线程去检测.子线程会频繁的创建和销毁. 上线以后,由于经常会有 ...
- Python之内存泄漏和内存溢出
预习知识:python之MRO和垃圾回收机制 一.内存泄漏 像Java程序一样,虽然Python本身也有垃圾回收的功能,但是同样也会产生内存泄漏的问题.对于一个用 python 实现的,长期运行的后台 ...
- <转>Python的内存泄漏及gc模块的使用分析
一般来说在 Python 中,为了解决内存泄漏问题,采用了对象引用计数,并基于引用计数实现自动垃圾回收.由于Python 有了自动垃圾回收功能,就造成了不少初学者误认为自己从此过上了好日子,不必再受内 ...
随机推荐
- SQL系列(一)—— SQL简介
在说到SQL之前需要了解一些关于数据库的概念: 数据库(database):是一个以某种有组织的方式存储的数据集合.存储数据的仓库,不过是以一定的组织方式进行存储. DBMS:数据库管理系统.经常遇到 ...
- LaTeX转义特殊符号
转义字符在LaTeX中有一些符号被用于特殊的用途,如 \\ \backslash\ 符号被用于命令的转义,直接在LaTeX中输入这些符号是无法正确得到这些符号的,甚至会引起LaTeX的报错. ...
- Sqoop import导入表时报错java.lang.ClassNotFoundException: org.json.JSONObject
报错原因:sqoop缺少java-json.jar包. 解决方案:一. 下载java-json.jar包地址:https://download.csdn.net/download/qq_2213643 ...
- 原生js数值开根算法
不借助Math函数求开根值 1.二分迭代法求n开根后的值 思路: left=0 right=n mid=(left+right)/2 比较mid^2与n大小 =输出: >改变范围,right=m ...
- java基础 super和this
/** * super关键字的用法有三种: * 1.在子类的成员方法中,访问父类的成员变量 * 2.在子类的成员方法中,访问父类的成员方法 * 3.在子类的构造方法中,访问父类的构造方法 * * th ...
- C# 转成金额每三位逗号隔开
long aaaa = 14200666; Console.WriteLine(aaaa.ToString("N0")); Console.WriteLine(string.For ...
- java基础小练习,1-打印一百次(1~10)的随机数,2-固定一个随机数(1~100),然后猜出他,3-定义以指定格式打印集合(ArrayList类型作为参数),使用{}括起来,使用@代替,分隔每个元素
推荐自己码一下,可以使用别的方法,面向对象,不需要注重过程 /* 题目:我需要打印一百次(1~10)的随机数 */ import java.util.Random; public class demo ...
- 2019 荔枝java面试笔试题 (含面试题解析)
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.荔枝等公司offer,岗位是Java后端开发,因为发展原因最终选择去了荔枝,入职一年时间了,也成为了面试官,之 ...
- 工具sublime安装
默认安装后是英文版 view-show console 安装packagecontrol https://packagecontrol.io/installation ctrl+`打开控制台,输入代码 ...
- 92.vue---新手从本地项目开发到服务器线上运行爬坑。
因为我做的是后台,所以不用做SEO 参考 本项目的定位是后台集成方案,不太适合当基础模板来进行二次开发.因为本项目集成了很多你可能用不到的功能,会造成不少的代码冗余.如果你的项目不关注这方面的问题,也 ...