C++ 02_C++引用详解

一、C++引用(Reference)

1.1 引用(Reference)的概念

引用(Reference) 是 C++ 的新增内容,在实际开发中会经常使用;C++ 用的引用就如同C语言的指针一样重要,但它比指针更加方便和易用,有时候甚至是不可或缺的。

同指针一样,引用能够减少数据的拷贝,提高数据的传递效率。

函数参数的传递本质上是一次赋值的过程,赋值就是对内存进行拷贝。所谓 内存拷贝,是指将一块内存上的数据复制到另一块内存上。

对于像 char、bool、int、float 等 基本类型 的数据,它们占用的内存往往只有几个字节,对它们进行内存拷贝非常快速。而数组、结构体、对象 等是一系列数据的集合,数据的数量没有限制,可能很少,也可能成千上万,对它们进行频繁的内存拷贝可能会消耗很多时间,拖慢程序的执行效率。

C/C++ 禁止在函数调用时直接传递数组的内容,而是强制传递数组指针,这点已在《C语言指针变量作为函数参数》中进行了讲解。而对于结构体和对象没有这种限制,调用函数时既可以传递指针,也可以直接传递内容;为了提高效率,一般建议传递指针,这样做在大部分情况下并没有什么不妥。

在 C++ 中,有了一种比指针更加便捷的传递聚合类型数据的方式,那就是 引用(Reference)

Tips: 在 C/C++ 中,我们将 char、int、float 等由语言本身支持的类型称为基本类型,将数组、结构体、类(对象)等由基本类型组合而成的类型称为聚合类型(在讲解结构体时也曾使用复杂类型、构造类型这两种说法)。

**引用(Reference)**是 C++ 相对于C语言的又一个扩充。 引用(Reference) 可以看做是数据的一个别名,通过这个别名和原来的名字都能够找到这份数据。引用类似于 Windows 中的快捷方式,一个可执行程序可以有多个快捷方式,通过这些快捷方式和可执行程序本身都能够运行程序;引用还类似于人的绰号(笔名),使用绰号(笔名)和本名都能表示一个人。

1.2 引用(Reference)的定义方式和特征

引用的定义方式类似于指针,只是用&取代了*,语法格式为:

1
type &name = var_name;

type 是被引用的数据的类型,name 是引用的名称,var_name 是被引用的数据的变量名(类型为type)。引用必须在定义的同时初始化,并且以后也要从一而终,不能再引用其它数据,这有点类似于常量(const 变量)。

引用的实例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
#include <iostream>
using namespace std;
int main() {
    int a = 99;
    int &r = a; // 此处的 & 用于定义引用
    cout << a << ", " << r << endl;     // 输出结果:99, 99
    cout << &a << ", " << &r << endl;   // 输出结果:0x28ff44, 0x28ff44 , 此处的 & 用于取变量的地址
    r = 100;    // 通过引用也可以修改原始变量中所存储的数据
    cout << a << ", " << r << endl;     // 输出结果:100, 100
    return 0;
}

本例中,变量 r 就是变量 a 的引用,它们用来指代同一份数据;也可以说变量 r 是变量 a 的另一个名字。从输出结果可以看出,a 和 r 的地址一样,都是0x28ff44;或者说地址为0x28ff44的内存有两个名字,a 和 r,想要访问该内存上的数据时,使用哪个名字都行。

Tips: 注意,引用在定义时需要添加&,在使用时不能添加&,使用时添加&表示取地址。

由于引用 r 和原始变量 a 都是指向同一地址,所以通过引用也可以修改原始变量中所存储的数据,

如果读者不希望通过引用来修改原始的数据,那么可以在定义时添加 const 限制,形式为:

1
const type &name = value;

也可以是:

1
type const &name = value;

这种引用方式为 常引用(const reference)

二、C++引用(Reference)的应用场景

2.1 引用作为函数参数

定义或声明函数时,可以将函数的形参指定为引用的形式,这样在调用函数时就会将实参和形参绑定在一起,让它们都指代同一份数据。如此一来,如果在函数体中修改了形参的数据,那么实参的数据也会被修改,从而拥有“在函数内部影响函数外部数据”的效果。 示例:

1
2
3
4
5
6
//按引用传参
void swap(int &r1, int &r2) {
    int temp = r1;
    r1 = r2;
    r2 = temp;
}

可以发现在代码编写中,按引用传参在使用形式上比指针更加直观。在 C++ 编程中,大量的使用引用,它一般可以代替指针(当然指针在C++中也不可或缺),C++ 标准库也是这样做的。

2.2 引用作为函数返回值

引用除了可以作为函数形参外,还可以作为函数返回值。 在将引用作为函数返回值时应该注意,不能返回局部数据(例如局部变量、局部对象、局部数组等)的引用,因为当函数调用完成后局部数据就会被销毁,有可能在下次使用时数据就不存在了,C++ 编译器检测到该行为时也会给出警告。 示例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
#include <iostream>
using namespace std;
int &plus10(int &r) {
    r += 10;
    return r;
}
int main() {
    int num1 = 10;
    int num2 = plus10(num1);
    cout << num1 << " " << num2 << endl; // 运行结果: 20 20
    return 0;
}

三、引用(Reference)的本质

3.1 引用(Reference)的本质是指针

我们知道,变量是要占用内存的,在第1.2节《引用(Reference)的定义方式和特征》的示例中,虽然我们称 r 为变量,但是通过 & 获取到的却不是 r 的地址,而是 a 的地址,这会让我们觉得 r 这个变量不占用独立的内存,它和 a 指代的是同一份内存。

看下面的示例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#include <iostream>
#include <iomanip>
using namespace std;

int num = 99;

class A
{
public:
    A();
private:
    int &r;
};

A::A(): r(num){}

int main ()
{
    A *a = new A();
    cout<<sizeof(A)<<endl;  // 输出A类型的大小, 
    cout<<hex<<showbase<<*((long *)a)<<endl;  // 输出r本身的内容(数值), 将会与 &num 的值相同
    cout<<&num<<endl;  // 输出num变量的地址

    return 0;
}

运行结果:

1
2
3
8
0x103f3c000
0x103f3c000

成员变量 r 是 private 属性的,不能直接通过对象来访问,但是借助强大的指针和类型转换,我们依然可以得到它的内容。

hex 表示以十六进制输出, showbase 表示添加十六进制前缀 0x.

从运行结果可以看出:

  • 成员变量 r 是占用内存的,如果不占用的话,sizeof(A) 的结果应该为 1(没有成员变量的空类型长度为1字节)。结果为8 表示 r 占8字节(指针类型的长度)
  • r 存储的内容是 0x103f3c000, 也即变量 num 的地址。

这说明 r 的实现和指针非常类似。如果将 r 定义为 int * 类型的指针,并在构造函数中让它指向 num,那么 r 占用的内存也是 8 个字节,存储的内容也是 num 的地址。

其实 引用只是对指针进行了简单的封装,它的底层依然是通过指针实现的,引用占用的内存和指针占用的内存长度一样,在 32 位环境下是 4 个字节,在 64 位环境下是 8 个字节,之所以不能获取引用的地址,是因为编译器进行了内部转换。以下面的语句为例:

1
2
3
4
int a = 99;
int &r = a;
r = 18;
cout<<&r<<endl;

编译时会被转换成如下的形式:

1
2
3
4
int a = 99;
int *r = &a;
*r = 18;
cout<<r<<endl;

使用 &r取地址时,编译器会对代码进行隐式的转换,使得代码输出的是 r 的内容(a 的地址),而不是 r 的地址,这就是为什么获取不到引用变量的地址的原因

也就是说,不是变量 r 不占用内存,而是编译器不让获取它的地址。 当引用作为函数参数时,也会有类似的转换。以下面的代码为例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
//定义函数
void swap(int &r1, int &r2)
{
    int temp = r1;
    r1 = r2;
    r2 = temp;
}

//调用函数
int num1 = 10, num2 = 20;
swap(num1, num2);

编译时会被转换成如下的形式:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
//定义函数
void swap(int *r1, int *r2)
{
    int temp = *r1;
    *r1 = *r2;
    *r2 = temp;
}

//调用函数
int num1 = 10, num2 = 20;
swap(&num1, &num2);

引用虽然是基于指针实现的,但它比指针更加易用,从上面的两个例子也可以看出来,通过指针获取数据时需要加 * ,书写麻烦,而引用不需要,它和普通变量的使用方式一样。

C++ 的发明人 Bjarne Stroustrup 也说过,他在 C++ 中引入引用的直接目的是为了让代码的书写更加漂亮,尤其是在 运算符重载 中,不借助引用有时候会使得运算符的使用很麻烦。

3.2 引用和指针的其它区别

  • 引用必须在定义时初始化,并且以后也要从一而终,不能再指向其他数据;而指针没有这个限制,指针在定义时不必赋值,以后也能指向任意数据。
  • 可以有 const 指针,但是没有 const 引用。也就是说,引用变量不能定义为下面的形式:
1
2
int a = 20;
int & const r = a;

因为 r 本来就不能改变指向,加上 const 是多此一举。

  • 指针可以有多级,但是引用只能有一级,例如,int **p 是合法的,而 int && 是不合法的。如果希望定义一个引用变量来指代另外一个引用变量,那么也只需要加一个 &,如下所示:
1
2
3
int a = 10;
int &r = a;
int &rr = r;
  • 指针和引用的自增(++)自减(–)运算意义不一样。对指针使用 ++ 表示指向下一份数据,对引用使用 ++ 表示它所指代的数据本身加 1;自减(–)也是类似的道理。

四、引用(Reference)不能绑定到临时数据

4.1 临时数据不能被引用

我们知道,指针就是数据或代码在内存中的地址,指针变量指向的就是内存中的数据或代码。这里有一个关键词需要强调,就是 内存 ,指针只能指向内存,不能指向寄存器或者硬盘,因为寄存器和硬盘没法寻址。

其实在 C++ 代码中的大部分内容都是放在内存中的,例如 定义的变量、创建的对象、字符串常量、函数形参、函数体本身、 newmalloc() 分配的内存等,这些内容都可以用 & 来获取地址、或者本身就是内存地址(首地址, 如数组名、函数名、newmalloc() 分配的内存),进而用指针变量指向它们。

除此之外,还有一些我们平时不太留意的临时数据,例如 表达式的结果、函数的返回值等,它们可能会放在内存中,也可能会放在寄存器中。一旦它们被放到了寄存器中,就没法用 & 获取它们的地址了,也就没法用指针指向它们了。

什么样的临时数据会放到寄存器中:

寄存器离 CPU 近,并且速度比内存快,将临时数据放到寄存器是为了加快程序运行。但是寄存器的数量是非常有限的,容纳不下较大的数据,所以只能将较小的临时数据放在寄存器中。int、double、bool、char 等基本类型的数据往往不超过 8 个字节,用一两个寄存器就能存储,所以这些类型的临时数据通常会放到寄存器中;而对象、结构体变量是自定义类型的数据,大小不可预测,所以这些类型的临时数据通常会放到内存中。

下面的代码是正确的,它证明了结构体类型的临时数据会被放到内存中:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#include <iostream>
using namespace std;

typedef struct
{
    int a;
    int b;
} S;

//这里用到了一点新知识,叫做运算符重载,我们会在《运算符重载》一章中详细讲解
S operator+(const S &A, const S &B)
{
    S C;
    C.a = A.a + B.a;
    C.b = A.b + B.b;
    return C;
}

S func()
{
    S a;
    a.a = 100;
    a.b = 200;
    return a;
}

int main()
{
    S s1 = {23, 45};
    S s2 = {90, 75};
    S *p1 = &(s1 + s2);
    S *p2 = &(func());
    cout<<p1<<", "<<p2<<endl;

    return 0;
}

常量表达式:

  • 不包含变量的表达式称为 常量表达式(Constant expression)
  • 常量表达式由于不包含变量,没有不稳定因素,所以在编译阶段就能求值。编译器不会分配单独的内存来存储常量表达式的值,而是将常量表达式的值和代码合并到一起,放到虚拟地址空间中的代码区。从汇编的角度看,常量表达式的值就是一个立即数,会被“硬编码”到指令中,不能寻址。

总起来说,常量表达式的值虽然在内存中,但是没有办法寻址,所以也不能使用 & 来获取它的地址,更不能用指针指向它。

引用和指针在本质上是一样的,引用仅仅是对指针进行了简单的封装。引用和指针都不能绑定到无法寻址的临时数据,并且 C++ 对引用的要求更加严格,在某些编译器下甚至连放在内存中的临时数据都不能指代。

当引用作为函数参数时,有时候很容易给它传递临时数据。 下面的 isOdd() 函数用来判断一个数是否是奇数:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
bool isOdd(int &n)
{
    if(n%2 == 0)
    {
        return false;
    }
    else
    {
        return true;
    }
}

int main()
{
    int a = 100;
    isOdd(a);  //正确
    isOdd(a + 9);  //错误
    isOdd(27);  //错误
    isOdd(23 + 55);  //错误

    return 0;
}

isOdd() 函数用来判断一个数是否为奇数,它的参数是引用类型,只能传递变量,不能传递常量或者表达式。但用来判断奇数的函数不能接受一个数字又让人感觉很奇怪,所以类似这样的函数应该坚持使用值传递,而不是引用传递。

4.2 编译器会为const引用创建临时变量

上节我们讲到,引用不能绑定到临时数据,这在大多数情况下是正确的,但是当使用 const 关键字对引用加以限定后,引用就可以绑定到临时数据了。下面的代码演示了引用和 const 这一对神奇的组合:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
typedef struct
{
    int a;
    int b;
} S;

int func_int()
{
    int n = 100;
    return n;
}

S func_s()
{
    S a;
    a.a = 100;
    a.b = 200;
    return a;
}

S operator+(const S &A, const S &B)
{
    S C;
    C.a = A.a + B.a;
    C.b = A.b + B.b;
    return C;
}

int main()
{
    int m = 100, n = 36;
    const int &r1 = m + n;
    const int &r2 = m + 28;
    const int &r3 = 12 * 3;
    const int &r4 = 50;
    const int &r5 = func_int();

    S s1 = {23, 45};
    S s2 = {90, 75};
    const S &r6 = func_s();
    const S &r7 = s1 + s2;

    return 0;
}

这段代码在 GCC 和 Visual C++ 下都能够编译通过,这是因为将常引用绑定到临时数据时,编译器采取了一种妥协机制:编译器会为临时数据创建一个新的、无名的临时变量,并将临时数据放入该临时变量中,然后再将引用绑定到该临时变量。

注意,临时变量也是变量,所有的变量都会被分配内存。

为什么编译器为常引用创建临时变量是合理的,而为普通引用创建临时变量就不合理呢?

  1. 我们知道,将引用绑定到一份数据后,就可以通过引用对这份数据进行操作了,包括读取和写入(修改);尤其是写入操作,会改变数据的值。而临时数据往往无法寻址,是不能写入的,即使为临时数据创建了一个临时变量,那么修改的也仅仅是临时变量里面的数据,不会影响原来的数据,这样就使得引用所绑定到的数据和原来的数据不能同步更新,最终产生了两份不同的数据,失去了引用的意义。

  2. const 引用和普通引用不一样,我们只能通过 const 引用读取数据的值,而不能修改它的值,所以不用考虑同步更新的问题,也不会产生两份不同的数据,为 const 引用创建临时变量反而会使得引用更加灵活和通用。

当引用作为函数参数时,如果在函数体内部不会修改引用所绑定的数据,那么请尽量为该引用添加 const 限制。

将引用类型的形参添加 const 限制的理由有三个:

  • 使用 const 可以避免无意中修改数据的编程错误;
  • 使用 const 能让函数接收 const 和非 const 类型的实参,否则将只能接收非 const 类型的实参;
  • 使用 const 引用能够让函数正确生成并使用临时变量。