如何有效的遍历django的QuerySet

　　最近做了一个小的需求，在django模型中通过前台页面的表单的提交（post），后台对post的参数进行解析，通过models模型查询MySQL，将数据结构进行加工，返回到前台页面进行展示。由于对django中QuerySet特性的不熟悉，所以测试过程中发现了很多问题。

　　开始的阶段没有遇到什么问题，我们举例，在models有一张员工表employee，对应的表结构中，postion列表示员工职位，前台post过来的参数赋给position，加上入职时间、离职时间，查询操作通过models.filter(position=params)完成，获取的员工信息内容由QuerySet和当前展示页与每页展示的记录数进行简单的计算，返回给前台页面进行渲染展示。编码如下：

 def get_employees(position, start, end):

     return employee.objects.filter(alert_time__lt=end,alert_time__gt=start).filter(position__in=position)

 @login_required

 def show(request):

     if not validate(request):

         return render_to_response('none.html',

                                   context_instance=RequestContext(request, 'msg':'params error')

                                   )

     position = request.REQUEST.get('position')

     time_range = request.REQUEST.get('time')

     start, end = time_range[0], time_range[1]

     num_per_page, page_num = get_num(request)

     all_employees = get_employees(position, start, end)

 　　# 根据当前页与每页展示的记录数，取到正确的记录

     employees = employees_events[(page_num-1)*num_per_page:page_num*num_per_page]

     return render_to_response('show_employees.html',

                               context_instance=RequestContext(

                                   request,

                                   'employees': employees,

                                   'num_per_page': num_per_page,

                                   'page_num':page_num,

                                   'page_options' : [50, 100, 200]

                               )

                             )

　　运行之后可以正确的对所查询的员工信息进行展示，并且查询速度很快。employee表中存放着不同职位的员工信息，不同类型的详细内容也不相同，假设employees有一列名为infomation，存储的是员工的详细信息，infomation = {'age': 33, 'gender': 'male', 'nationality': 'German', 'degree': 'doctor', 'motto': 'just do it'}，现在的需求是要展示出分类更细的员工信息，前台页面除了post职位、入职离职时间外，还会对infomation中的内容进行筛选，这里以查询中国籍的设计师为例，在之前的代码基础上，需要做一些修改。员工信息表employee存放于MySQL中，而MySQL为ORM数据库，它并未提供类似mongodb一样更为强大的聚合函数，所以这里不能通过objects提供的方法进行filter，一次性将所需的数据获取出来，那么需要对type进行过滤后的数据，进行二次遍历，通过information来确定当前记录是否需要返回展示，在展示过程中，需要根据num_per_page和page_num计算出需要展示数据起始以及终止位置。

 def get_employees(position, start, end):

     return employee.objects.filter(alert_time__lt=end,alert_time__gt=start).filter(position__in=position)

 def filter_with_nation(all_employees, nationality, num_per_page, page_num):

     result = []

     pos = (page_num-1)*num_per_page

     cnt = 0

     start = False

     for employee in all_employees:

         info = json.loads(employee.information)

         if info.nationality != nationality:

             continue

         # 获取的数据可能并不是首页，所以需要先跳过前n-1页

         if cnt == pos:

             if start:

                 break

             cnt = 0

             pos = num_per_page

             start = True

         if start:

             result.append(employee)

     return employee

 @login_required

 def show(request):

     if not validate(request):

         return render_to_response('none.html',

                                   context_instance=RequestContext(request, 'msg':'params error')

                                   )

     position = request.REQUEST.get('position')

     time_range = request.REQUEST.get('time')

     start, end = time_range[0], time_range[1]

     num_per_page, page_num = get_num(request)

     all_employees = get_employees(position, start, end)

     nationality = request.REQUEST.get('nationality')

     employees = filter_with_nation(all_employees, num_per_page, page_num)

     return render_to_response('show_employees.html',

                               context_instance=RequestContext(

                                   request,

                                   'employees': employees,

                                   'num_per_page': num_per_page,

                                   'page_num':page_num,

                                   'page_options' : [50, 100, 200]

                               )

                             )

　　当编码完成之后，在数据employee表数据很小的情况下测试并未发现问题，而当数据量非常大，并且查询的数据很少时，代码运行非常耗时。我们设想，这是一家规模很大的跨国公司，同时人员的流动量也很大，所以employee表的数据量很庞大，而这里一些来自于小国家的员工并不多，比如需要查询国籍为梵蒂冈的员工时，前台页面进入了无尽的等待状态。同时，监控进程的内存信息，发现进程的内存一直在增长。毫无疑问，问题出现在filter_with_nation这个函数中，这里逐条遍历了employee中的数据，并且对每条数据进行了解析，这并不是高效的做法。

　　在网上查阅了相关资料，了解到：

1 Django的queryset是惰性的，使用filter语句进行查询，实际上并没有运行任何的要真正从数据库获得数据

2 只要你查询的时候才真正的操作数据库。会导致执行查询的操作有：对QuerySet进行遍历queryset，切片，序列化，对 QuerySet 应用 list()、len()方法，还有if语句

3 当第一次进入循环并且对QuerySet进行遍历时，Django从数据库中获取数据，在它返回任何可遍历的数据之前，会在内存中为每一条数据创建实例，而这有可能会导致内存溢出。

　　上面的原来很好的解释了代码所造成的现象。那么如何进行优化是个问题，网上有说到当QuerySet非常巨大时，为避免将它们一次装入内存，可以使用迭代器iterator()来处理，但对上面的代码进行修改，遍历时使用employee.iterator()，而结果和之前一样，内存持续增长，前台页面等待，对此的解释是：using iterator() will save you some memory by not storing the result of the cache internally (though not necessarily on PostgreSQL!); but will still retrieve the whole objects from the database。

　　这里我们知道不能一次性对QuerySet中所有的记录进行遍历，那么只能对QuerySet进行切片，每次取一个chunk_size的大小，遍历这部分数据，然后进行累加，当达到需要的数目时，返回满足的对象列表，这里修改下filter_with_nation函数：

 def filter_with_nation(all_employees, nationality, num_per_page, page_num):

     result = []

     pos = (page_num-1)*num_per_page

     cnt = 0

     start_pos = 0

     start = False

     while True:

         employees = all_employees[start_pos:start_pos+num_per_page]

         start_pos += num_per_page

         for employee in employees:

             info = json.loads(employee.infomation)

             if info.nationality != nationality:

                 continue

             if cnt == pos:

                 if start:

                     break

                 cnt = 0

                 pos = num_per_page

                 start = True

             if start:

                 result.append(opt)

             cnt += 1

         if cnt == num_per_page or not events:

             break

     return result

　　运行上述代码时，查询的速度更快，内存也没有明显的增长，得到效果不错的优化。这篇文章初衷在于记录自己对django中queryset的理解和使用，而对于文中的例子，其实正常业务中，如果需要记录员工详细的信息，最好对employee表进行扩充，或者建立一个字表，存放详细信息，而不是将所有信息存放入一个字段中，避免在查询时的二次解析。

　　参考：

　　http://www.oschina.net/translate/django-querysets

　　http://stackoverflow.com/questions/4222176/why-is-iterating-through-a-large-django-queryset-consuming-massive-amounts-of-me

如何有效的遍历django的QuerySet的更多相关文章

Django OMR QuerySet的特性/存在意义
QuerySet存在的意义主要在惰性机制和缓存两点 ---------->惰性机制: 所谓惰性机制:Publisher.objects.all()或者.filter()等都只是返回了一个Quer ...
django的queryset和objects对象
1. queryset是查询集,就是传到服务器上的url里面的内容.Django会对查询返回的结果集QerySet进行缓存,这里是为了提高查询效率. 也就是说,在你创建一个QuerySet对象的时候, ...
Django ORM Queryset 的缓存机制, 惰性查询简述
在Django的ORM中必须注意由于QuerySet的 cache导致的数据获取不正确的问题在哪些情况下不会出发QuerySet缓存? 隐式存储QuerySet(查询语句没有显示赋值给变量而直接进 ...
Django ORM queryset object 解释(子查询和join连表查询的结果)
#下面两种是基于QuerySet查询也就是说SQL中用的jion连表的方式查询books = models.UserInfo.objects.all() print(type(books)) --- ...
Django之QuerySet 创建对象
在前面的模型介绍中设置了3个对象,出版商(publisher),作者(Authro),书籍(book).首先我们在网页中添加各个对象信息填写的界面.填写后点击提交.将会传递给后端.传递方式采用post ...
Django之queryset API
1. QuerySet 创建对象的方法 >>> from blog.models import Blog >>> b = Blog(name='Beatles Bl ...
Django之QuerySet 查询
首先来看下如何查询.我们在网页中增加书名的查询链接后端的查询处理代码:这里由于authors是manytomanyfiled,因此我们这里用r.authors.all().first()来查询符合条 ...
django 补充 QuerySet数据类型
1 QuerySet数据类型特点: (1) 可切片 Entry.objects.all()[:5] (2) 可迭代 : articleLis ...
Python - Django - ORM QuerySet 方法补充
models.py: from django.db import models class Employee2(models.Model): name = models.CharField(max_l ...

随机推荐

jQuery的使用及关于框架造型（转）
Introduction 正如jQuery所宣称的一样,Write Less, Do More.很多时候我们喜欢用它来解决问题.但增加一个库必然意味着更大的网络负担,意味着更高的页面初始载入时间.并且 ...
【日常学习】【欧拉功能】codevs2296 荣誉的解决方案卫队的一个问题
转载请注明出处 [ametake版权全部]http://blog.csdn.net/ametake欢迎来看看题目来源:SDOI2008 文章被剽窃非常严重啊所以以后都带上版权信息先上题目题目描 ...
减小Cookie体积
HTTP coockie能够用于权限验证和个性化身份等多种用途.coockie内的有关信息是通过HTTP文件头来在webserver和浏览器之间进行交流的.因此保持coockie尽可能的小以降低用户的 ...
Windows 2008 卸载 IIS7 批处理
@echo offcolor 0aecho 正在卸载IIS功能,这可能需要几分钟时间...start /w pkgmgr /uu:IIS-WebServerRole;WAS-WindowsActiva ...
新秀系列C/C++经典问题(四)
一个主题:查找最小的k个元素输入n个整数.输出当中最小的k个. . 分析:这道题最简单的思路莫过于把输入的n个整数排序,这样排在最前面的k个数就是最小的k个数. 仅仅是这样的思路的时间复杂度为O(n ...
iptables的CLUSTER target以太网交换机和想法
周末热风,这个想法从未在我的心脏像样的雨一阵悲哀. 每到周末,我会抽出一周整夜的事情的总结,无论是工作.人生,或者在上班或在锯的方式方法,并听取了抑制书评,因为无雨,周六晚上,我决定好好睡一觉,再折腾 ...
基于注释配置bean和装饰bean
1.组件扫描 Spring容器能够从classpath(类路径)下自动扫描.侦测和实例化具有特定注释的组件. 2.特定注释组件 –@Component: 基本注解, 标识了一个受 Spring 管理的 ...
Effective C++学习笔记(Part One:Item 1-4)
最近的最终effectvie C++仔细阅读侧,我很惊讶C++动力和魅力.最近的" LL最近记得阅读体验和读书笔记其.必要查找使用,是什么假设总结不合适.欢迎批评: 如今仅仅列出框架,近期会 ...
hdu5044 Tree 树链拆分，点细分，刚，非递归版本
hdu5044 Tree 树链拆分.点细分.刚,非递归版本 //#pragma warning (disable: 4786) //#pragma comment (linker, "/ST ...
Windows移动开发（一）——登堂入室
開始本博客之前先分享一个自己的好消息吧,2014年3月31日起,正式就职于北京****集团Win8project师.主要负责将IOS和Android应用移植到Win8.1平板上,目标客户是银行,闲话不 ...

如何有效的遍历django的QuerySet

如何有效的遍历django的QuerySet的更多相关文章

随机推荐

热门专题