Python 性能优化指导(加速器和一些小技巧)

  1. 使用测量工具,量化性能才能改进性能,常用的timeit和memory_profiler,此外还有profile、cProfile、hotshot等,memory_profiler用了psutil,所以不能跟踪cpython的扩展;
  2. 用C来解决费时的处理,c是效率的代名词,也是python用来解决效率问题的主要途径,甚至有时候我都觉得python是c的完美搭档。常用的是Cython,直接把py代码c化然后又能像使用py包一样使用,其次是ctypes,效率最最高的存在,最后还有CPython和cffi都是屌屌的存在;
  3. 优化算法,所有语言通病,算法的提升我觉得是在所有提升之上的,但也是最难的,好在现在大部分常用的算法都已经封包,除非自己给自己挖坑,所以弄懂标准库里的数据结构和常用api是如何实现的很重要;
  4. 2里的实现有人做了更高效的包用以替换python中常见的一些实现,如果瓶颈在stringio、pickle、profile这类上的可以考虑替换为c的版本;
  5. 数据结构尽量使用元组tuple,特别是数据量大的时候,实在不行list也可以,尽量不要用class,如果一定要用可以加slot,效率再不够就只能结合2来加速了;
  6. 延迟加载,import不是一定要写在一页的开始,哪里都可以,越碎片越能把包的加载延迟甚至不被加载;
  7. 用multiprocessing来实现多线程,可以跳出GIL的限制;
  8. python处理循环很烂,解释性语言就这样,跟其它编译型语言比就是蜗牛,所以减少循环次数和嵌套次数能显著提升性能,当然了使用pypy就没有这个问题了;
  9. 使用加速器,很喜欢psyco的使用方式,如果用2.7-的版本那么不失为一个懒人的选择,现在已经不再维护,创始人去了pypy,pypy是用Python实现的python,底层转为平台依赖的c、.net、java的中间语言,方式非常聪明,大爱,但是缺点是库的支持还不完善,我的项目基本都能支持,解决几个小问题即可,如果性能瓶颈在循环和内存上可以试试,最大的好处是不需要更改一句代码和做另外的设置,没有任何侵入。

Update-20161101:
1.更新第一条,objgraph更好用,兼容py3,重点是速度快,除了查看top对象列表外还可以生成对象图谱来分析oom,用了cython也可以分析,配合memory_profiler很完美;
2.吐槽一下pympler ,输出非常漂亮,可惜就是慢,如果数据量不大分析倒是挺好用的。
3.使用”del a”语法,如果这个代码是被使用在Cython中,因为它可以立即释放这部分内存;

参考资料:
Python 代码性能优化技巧:https://www.ibm.com/developerworks/cn/linux/l-cn-python-optim/
Python性能优化技巧:http://kuanghy.github.io/2016/09/26/python-optimize