性能优化,我们应该知道的更多一点

当我们谈到性能优化,更多的同学可能想到的是系统层面的性能优化。比如在一个Web服务程序中,通过Redis或者其它缓存来提升网站访问的速度等。这一方面是编译器为我们做了很多优化工作,另外一方面是觉得系统层面的优化效果更明显,也更高大上。实际上,除了系统层面的性能优化外,在程序代码层面的性能优化效果也是非常好的

废话不多说,我们以事实说话。大家看一下下面两段程序,两段程序的作用完全相同,就是将一个二维数组中的每一个元素做加1操作。大家看一下,觉得这两段的程序是否会有性能差异?实际测试结果是两者有近4倍的性能差异

1
2
3
4
5
6
7
8
9
// 这是第一段程序
for(i = 0; i < 1024; i ++)
for(j = 0; j < 1024; j ++)
array[j][i] ++;
//程序的差异在这里 ^ ^
//这是第二段程序
for(i = 0; i < 1024; i ++)
for(j = 0; j < 1024; j ++)
array[i][j] ++;

性能差异的原因分析

大家考虑一下,为什么有如此之大的性能差异?结合代码,我们看到两段代码的差异在于对数组元素的访问顺序,前者是逐列访问,而后者是逐行访问。结合图1可能会理解的更加清楚一些。然后,我们在结合C语言中二维数据数据在内存中的排布规则(可以在上述代码中通过打印地址的方式验证一下),可以知道前者是访问连续的地址空间,而后者访问的是跳跃的地址空间。
图1 两种访问形式
以整形数组为例,也就是说,前者访问的地址依次为X,X+4,X+8等等。而后者访问的地址则依次为X,X+4096,X+8192。后者每次跳跃4KB的地址空间。
了解了上述差异后,大家有没有想到性能差异的原因?我们知道CPU为了提升访问内存的性能,在其和内存之间增加了缓存,现代CPU缓存通常为3级缓存,分别是L1、L2和L3,其中L1和L2是CPU核独有的,而L3是同一颗CPU的多核共享的。其基本的架构如图2所示。
图2 CPU缓存架构
由于缓存分布式的特点,在多个CPU之间需要保证其一致性。扯远了,总之缓存需要切割为比较小的粒度进行管理,这个小粒度的管理单元称为缓存行(可以类比页缓存中的缓存页)。由于缓存的容量远远小于内存的容量,因此缓存无法把内存中的内容都加载其中。缓存能够其作用的最主要的原因是利用的常规业务访问数据的两个特性,也就是空间局部性和时间局部性。

空间局部性:对于刚被访问的数据,其相邻的数据在将来被访问的概率高。
时间局部性:对于刚被访问的数据,其本身在将来被访问的概率高。

了解了上述原理,我们就知道,对于上面程序程序代码,由于第二段程序依次跳跃的太远,也就是不满足空间局部性,从而导致缓存命中失败。也就是说第二段程序其实无法访问缓存中的数据,而是直接访问的内存。而内存的访问性能要远远低于缓存的访问性能,因此就出现了文章一开始的近4倍的性能差异。

关于程序性能的其它考虑

我们程序的很微小的改动就有可能对性能产生非常大的影响。因此,我们在日常开发中应该处处注意代码中是否有不恰当的代码导致性能问题。下面我们在列举一个关于性能相关的程序实例,以便大家在以后的开发中参考。

程序结构

不合理的程序结构对性能的影响有的时候是灾难性的。下面两个函数的性能差异在字符串很长的情况下将非常巨大。函数lower1在每次循环中都计算一下字符串的长度,而这种计算并不是必要的。函数lower2则是在循环开始之前计算字符串长度,而后通过一个恒定的变量来进行条件判断。问题的根源在于strlen函数,这个函数通过循环计算字符串的长度,如果字符串比较长,那这个函数将相当耗时。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
void lower1(char *s)
{
int i;

for (i = 0; i < strlen(s); i++)
if (s[i] >='A' && s[i] <= 'Z')
s[i] -= ('A' -'a');
}

//下面这个实现性能会更好。
void lower2(char *s)
{
int i;
int len = strlen(s);

for (i = 0; i < len; i++)
if (s[i] >='A' && s[i] <= 'Z')
s[i] -= ('A' -'a');
}

过程(函数)调用

我们知道在过程调用的时候会存在压栈和出栈等操作,这些操作通常都是对内存的操作,且过程比较复杂。也就是说,函数的调用过程是比较耗时的操作,尽量减少函数调用。
值得庆幸的是现代的编译器可以对函数调用做很多优化工作,简单的函数调用通常可以被编译器优化调。所谓优化调是只在机器语言(汇编语言)层面已经没有高级语言的函数调用了。
我们通过一个具体的例子看一下,通过C语言实现一个简单的函数调用,其中函数fun_1调用函数fun_2,而函数fun_2又调用了printf。这里fun_2并没有做什么太多的工作,只是将两个参数相加后传给printf。
图3 函数调用优化
如图所示,在gcc不做任何优化的情况下,反汇编的代码(图3左下角)可以看出,整个逻辑非常清晰,只是按部就班的调用函数。但是,通过-O2优化后,汇编代码变得非常简洁了(图3右下角),通过fun_1的汇编代码可以看出它根本没有调用fun_2,而是直接调用的printf函数。因此,在不影响其功能的情况下,编译器是可以优化调函数调用的。但这不是绝对的,稍微复杂的函数调用编译器可能就无能为力了,而此时就可能导致性能损耗。

运算符差异

不同的运算的耗时差异也是非常巨大的,比如乘法的耗时是加法的两三倍,而除法的耗时是加法的十倍以上。因此在访问频度比较高的逻辑中减少除法的使用将会明显的提升。
在Java的HashMap实现中,通过位运算来计算哈希的Key,而不是通过模运算。因为模运算本身是除法运算,性能要比位运算差十倍以上。

1
2
3
4
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

更详细的处理逻辑请参考JDK的源代码,本文仅仅是抛个砖 。

引用与拷贝

支持类的高级语言在传递对象参数的时候涉及拷贝的过程,对象的拷贝也是比较消耗性能的操作。当然,高级语言通过一种成为引用的机制实现了对象地址的传递,这样就避免了拷贝的过程(这就是传值与传址的差异)。
在程序开发过程中关于性能的问题还很多,本文无法一一列举出来。但,关键的问题是掌握技术的底层实现原理,任何其它高层的内容都可以通过底层原理解释的,正所谓万变不离其宗。