如何有效的遍历django的QuerySet

　　最近做了一个小的需求，在django模型中通过前台页面的表单的提交（post），后台对post的参数进行解析，通过models模型查询MySQL，将数据结构进行加工，返回到前台页面进行展示。由于对django中QuerySet特性的不熟悉，所以测试过程中发现了很多问题。

　　开始的阶段没有遇到什么问题，我们举例，在models有一张员工表employee，对应的表结构中，postion列表示员工职位，前台post过来的参数赋给position，加上入职时间、离职时间，查询操作通过models.filter(position=params)完成，获取的员工信息内容由QuerySet和当前展示页与每页展示的记录数进行简单的计算，返回给前台页面进行渲染展示。编码如下：

 def get_employees(position, start, end):

     return employee.objects.filter(alert_time__lt=end,alert_time__gt=start).filter(position__in=position)

 @login_required

 def show(request):

     if not validate(request):

         return render_to_response('none.html',

                                   context_instance=RequestContext(request, 'msg':'params error')

                                   )

     position = request.REQUEST.get('position')

     time_range = request.REQUEST.get('time')

     start, end = time_range[0], time_range[1]

     num_per_page, page_num = get_num(request)

     all_employees = get_employees(position, start, end)

 　　# 根据当前页与每页展示的记录数，取到正确的记录

     employees = employees_events[(page_num-1)*num_per_page:page_num*num_per_page]

     return render_to_response('show_employees.html',

                               context_instance=RequestContext(

                                   request,

                                   'employees': employees,

                                   'num_per_page': num_per_page,

                                   'page_num':page_num,

                                   'page_options' : [50, 100, 200]

                               )

                             )

　　运行之后可以正确的对所查询的员工信息进行展示，并且查询速度很快。employee表中存放着不同职位的员工信息，不同类型的详细内容也不相同，假设employees有一列名为infomation，存储的是员工的详细信息，infomation = {'age': 33, 'gender': 'male', 'nationality': 'German', 'degree': 'doctor', 'motto': 'just do it'}，现在的需求是要展示出分类更细的员工信息，前台页面除了post职位、入职离职时间外，还会对infomation中的内容进行筛选，这里以查询中国籍的设计师为例，在之前的代码基础上，需要做一些修改。员工信息表employee存放于MySQL中，而MySQL为ORM数据库，它并未提供类似mongodb一样更为强大的聚合函数，所以这里不能通过objects提供的方法进行filter，一次性将所需的数据获取出来，那么需要对type进行过滤后的数据，进行二次遍历，通过information来确定当前记录是否需要返回展示，在展示过程中，需要根据num_per_page和page_num计算出需要展示数据起始以及终止位置。

 def get_employees(position, start, end):

     return employee.objects.filter(alert_time__lt=end,alert_time__gt=start).filter(position__in=position)

 def filter_with_nation(all_employees, nationality, num_per_page, page_num):

     result = []

     pos = (page_num-1)*num_per_page

     cnt = 0

     start = False

     for employee in all_employees:

         info = json.loads(employee.information)

         if info.nationality != nationality:

             continue

         # 获取的数据可能并不是首页，所以需要先跳过前n-1页

         if cnt == pos:

             if start:

                 break

             cnt = 0

             pos = num_per_page

             start = True

         if start:

             result.append(employee)

     return employee

 @login_required

 def show(request):

     if not validate(request):

         return render_to_response('none.html',

                                   context_instance=RequestContext(request, 'msg':'params error')

                                   )

     position = request.REQUEST.get('position')

     time_range = request.REQUEST.get('time')

     start, end = time_range[0], time_range[1]

     num_per_page, page_num = get_num(request)

     all_employees = get_employees(position, start, end)

     nationality = request.REQUEST.get('nationality')

     employees = filter_with_nation(all_employees, num_per_page, page_num)

     return render_to_response('show_employees.html',

                               context_instance=RequestContext(

                                   request,

                                   'employees': employees,

                                   'num_per_page': num_per_page,

                                   'page_num':page_num,

                                   'page_options' : [50, 100, 200]

                               )

                             )

　　当编码完成之后，在数据employee表数据很小的情况下测试并未发现问题，而当数据量非常大，并且查询的数据很少时，代码运行非常耗时。我们设想，这是一家规模很大的跨国公司，同时人员的流动量也很大，所以employee表的数据量很庞大，而这里一些来自于小国家的员工并不多，比如需要查询国籍为梵蒂冈的员工时，前台页面进入了无尽的等待状态。同时，监控进程的内存信息，发现进程的内存一直在增长。毫无疑问，问题出现在filter_with_nation这个函数中，这里逐条遍历了employee中的数据，并且对每条数据进行了解析，这并不是高效的做法。

　　在网上查阅了相关资料，了解到：

1 Django的queryset是惰性的，使用filter语句进行查询，实际上并没有运行任何的要真正从数据库获得数据

2 只要你查询的时候才真正的操作数据库。会导致执行查询的操作有：对QuerySet进行遍历queryset，切片，序列化，对 QuerySet 应用 list()、len()方法，还有if语句

3 当第一次进入循环并且对QuerySet进行遍历时，Django从数据库中获取数据，在它返回任何可遍历的数据之前，会在内存中为每一条数据创建实例，而这有可能会导致内存溢出。

　　上面的原来很好的解释了代码所造成的现象。那么如何进行优化是个问题，网上有说到当QuerySet非常巨大时，为避免将它们一次装入内存，可以使用迭代器iterator()来处理，但对上面的代码进行修改，遍历时使用employee.iterator()，而结果和之前一样，内存持续增长，前台页面等待，对此的解释是：using iterator() will save you some memory by not storing the result of the cache internally (though not necessarily on PostgreSQL!); but will still retrieve the whole objects from the database。

　　这里我们知道不能一次性对QuerySet中所有的记录进行遍历，那么只能对QuerySet进行切片，每次取一个chunk_size的大小，遍历这部分数据，然后进行累加，当达到需要的数目时，返回满足的对象列表，这里修改下filter_with_nation函数：

 def filter_with_nation(all_employees, nationality, num_per_page, page_num):

     result = []

     pos = (page_num-1)*num_per_page

     cnt = 0

     start_pos = 0

     start = False

     while True:

         employees = all_employees[start_pos:start_pos+num_per_page]

         start_pos += num_per_page

         for employee in employees:

             info = json.loads(employee.infomation)

             if info.nationality != nationality:

                 continue

             if cnt == pos:

                 if start:

                     break

                 cnt = 0

                 pos = num_per_page

                 start = True

             if start:

                 result.append(opt)

             cnt += 1

         if cnt == num_per_page or not events:

             break

     return result

　　运行上述代码时，查询的速度更快，内存也没有明显的增长，得到效果不错的优化。这篇文章初衷在于记录自己对django中queryset的理解和使用，而对于文中的例子，其实正常业务中，如果需要记录员工详细的信息，最好对employee表进行扩充，或者建立一个字表，存放详细信息，而不是将所有信息存放入一个字段中，避免在查询时的二次解析。

　　参考：

　　http://www.oschina.net/translate/django-querysets

　　http://stackoverflow.com/questions/4222176/why-is-iterating-through-a-large-django-queryset-consuming-massive-amounts-of-me

如何有效的遍历django的QuerySet的更多相关文章

Django OMR QuerySet的特性/存在意义
QuerySet存在的意义主要在惰性机制和缓存两点 ---------->惰性机制: 所谓惰性机制:Publisher.objects.all()或者.filter()等都只是返回了一个Quer ...
django的queryset和objects对象
1. queryset是查询集,就是传到服务器上的url里面的内容.Django会对查询返回的结果集QerySet进行缓存,这里是为了提高查询效率. 也就是说,在你创建一个QuerySet对象的时候, ...
Django ORM Queryset 的缓存机制, 惰性查询简述
在Django的ORM中必须注意由于QuerySet的 cache导致的数据获取不正确的问题在哪些情况下不会出发QuerySet缓存? 隐式存储QuerySet(查询语句没有显示赋值给变量而直接进 ...
Django ORM queryset object 解释(子查询和join连表查询的结果)
#下面两种是基于QuerySet查询也就是说SQL中用的jion连表的方式查询books = models.UserInfo.objects.all() print(type(books)) --- ...
Django之QuerySet 创建对象
在前面的模型介绍中设置了3个对象,出版商(publisher),作者(Authro),书籍(book).首先我们在网页中添加各个对象信息填写的界面.填写后点击提交.将会传递给后端.传递方式采用post ...
Django之queryset API
1. QuerySet 创建对象的方法 >>> from blog.models import Blog >>> b = Blog(name='Beatles Bl ...
Django之QuerySet 查询
首先来看下如何查询.我们在网页中增加书名的查询链接后端的查询处理代码:这里由于authors是manytomanyfiled,因此我们这里用r.authors.all().first()来查询符合条 ...
django 补充 QuerySet数据类型
1 QuerySet数据类型特点: (1) 可切片 Entry.objects.all()[:5] (2) 可迭代 : articleLis ...
Python - Django - ORM QuerySet 方法补充
models.py: from django.db import models class Employee2(models.Model): name = models.CharField(max_l ...

随机推荐

（一个）AngularJS获取贴纸Hello World
一旦项目使用JQuery原创javascript,最近参加了一个项目,需要使用AngularJS.RequireJS比较框架,如汰渍.这里写一些博客,记录自己的学习过程,虽然冠以原来的名字,实际上都是 ...
使用PF_PACKET和SOCK_RAW发送自己定义type以太网数据包
本文介绍使用PF_PACKET和SOCK_RAW发送自己定义type以太网数据包,使用wireshare抓包能够获取到数据包,为Linux内核添加网络协议做铺垫. 先上码: #include < ...
ImageView建立selector在录音中遇到的小问题及解决方案
随着两张照片做了一个selector,采用ImageView的src要么background采用selector当点击,总不会出现点击效果,这就是为什么?经过一番折腾,后来发现"揭秘&quo ...
HTTPS抓包配置
以Charles为例配置Charles抓取Https需要手机和PC分别进行配置. 步骤: 1.PC下载charles客户端,并安装. 2.charles客户端安装证书注意证书安装需要保存在&quo ...
Xamarin.Forms 初探
什么是 Xamarin Forms ? Xamarin Forms 是一个高效创建跨平台用户界面的库 .通过Xamarin Forms 能够一次编码生成基于主流移动平台(iOS, Android, W ...
随手记UIKit Dynamics
以今年的优势WWDC品行,我记得一些明年的元素.一些博客上找到了新的功能没有被记录.认为iOS 8全力以赴.iOS 7该属性不随手记录为时已晚 :) 参考WWDC 2013的Session Video ...
Android - View Alpha值
Android - View Alpha值本文地址: http://blog.csdn.net/caroline_wendy Alpha值主要控制图像的透明度(0-1),0代表透明.1代表不透明. ...
SharePoint 创建一个简单的Web Part 部分
SharePoint 创建一个简单的Web Part 部分标准Web零件有时会很强大,运行多个功能的能力. 本文介绍了如何使用Visual Studio 创建一个简单的Web部分. 1. 打开VS, ...
Windows平台配置Appium+Java环境
1) 安装JDK 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 安装 ...
linux虚拟文件系统2
转自:http://rstevens.iteye.com/blog/849413 一.概述 Linux 文件系统是相当复杂的,本文只分析虚拟文件系统的实现,对具体的文件系统不涉及. 即使是虚拟文件系统 ...

如何有效的遍历django的QuerySet

如何有效的遍历django的QuerySet的更多相关文章

随机推荐

热门专题