AutoCAD 3DMAX C语言 Pro/E UG JAVA编程 PHP编程 Maya动画 Matlab应用 Android
Photoshop Word Excel flash VB编程 VC编程 Coreldraw SolidWorks A Designer Unity3D
 首页 > C++

C++程序设计从零开始(三)

51自学网 http://www.wanshiok.com

 

  四、变量

  在本系列的第一篇中已经说过,电脑编程的绝大部分工作就是操作内存,而上面说了,为了操作内存,需要使用地址来标识要操作的内存块的首地址(上面的long表示连续的4个字节内存,其第一个内存单元的地址称作这连续4个字节内存块的首地址)。为此我们在编写程序时必须记下地址。

  做5+2/3-5*2的计算,先计算出2/3的值,写在草稿纸上,接着算出5*2的值,又写在草稿纸上。为了接下来的加法和减法运算,必须能够知道草稿纸上的两个数字哪个是2/3的值哪个是5*2的值。人就是通过记忆那两个数在纸上的位置来记忆的,而电脑就是通过地址来标识的。但电脑只会做加减乘除,不会去主动记那些2/3、5*2的中间值的位置,也就是地址。因此程序员必须完成这个工作,将那两个地址记下来。

  问题就是这里只有两个值,也许好记一些,但如果多了,人是很难记住哪个地址对应哪个值的,但人对符号比对数字要敏感得多,即人很容易记下一个名字而不是一个数字。为此,程序员就自己写了一个表,表有两列,一列是“2/3的值”,一列是对应的地址。如果式子稍微复杂点,那么那个表可能就有个二三十行,而每写一行代码就要去翻查相应的地址,如果来个几万行代码那是人都不能忍受。

  C++作为高级语言,很正常地提供了上面问题的解决之道,就是由编译器来帮程序员维护那个表,要查的时候是编译器去查,这也就是变量的功能。

  变量是一个映射元素。上面提到的表由编译器维护,而表中的每一行都是这个表的一个元素(也称记录)。表有三列:变量名、对应地址和相应类型。变量名是一个标识符,因此其命名规则完全按照上一篇所说的来。当要对某块内存写入数据时,程序员使用相应的变量名进行内存的标识,而表中的对应地址就记录了这个地址,进而将程序员给出的变量名,一个标识符,映射成一个地址,因此变量是一个映射元素。而相应类型则告诉编译器应该如何解释此地址所指向的内存,是2个连续字节还是4个?是原码记录还是补码?而变量所对应的地址所标识的内存的内容叫做此变量的值。

  有如下的变量解释:“可变的量,其相当于一个盒子,数字就装在盒子里,而变量名就写在盒子外面,这样电脑就知道我们要处理哪一个盒子,且不同的盒子装不同的东西,装字符串的盒子就不能装数字。”上面就是我第一次学习编程时,书上写的(是BASIC语言)。对于初学者也许很容易理解,也不能说错,但是造成的误解将导致以后的程序编写得千疮百孔。

  上面的解释隐含了一个意思——变量是一块内存。这是严重错误的!如果变量是一块内存,那么C++中著名的引用类型将被弃置荒野。变量实际并不是一块内存,只是一个映射元素,这是至关重要的。


  五、内存的种类

  前面已经说了内存是什么及其用处,但内存是不能随便使用的,因为操作系统自己也要使用内存,而且现在的操作系统正常情况下都是多任务操作系统,即可同时执行多个程序,即使只有一个CPU。因此如果不对内存访问加以节制,可能会破坏另一个程序的运作。比如我在纸上写了2/3的值,而你未经我同意且未通知我就将那个值擦掉,并写上5*2的值,结果我后面的所有计算也就出错了。

  因此为了使用一块内存,需要向操作系统申请,由操作系统统一管理所有程序使用的内存。所以为了记录一个long类型的数字,先向操作系统申请一块连续的4字节长的内存空间,然后操作系统就会在内存中查看,看是否还有连续的4个字节长的内存,如果找到,则返回此4字节内存的首地址,然后编译器编译的指令将其记录在前面提到的变量表中,最后就可以用它记录一些临时计算结果了。

  上面的过程称为要求操作系统分配一块内存。这看起来很不错,但是如果只为了4个字节就要求操作系统搜索一下内存状况,那么如果需要100个临时数据,就要求操作系统分配内存100次,很明显地效率低下(无谓的99次查看内存状况)。因此C++发现了这个问题,并且操作系统也提出了相应的解决方法,最后提出了如下的解决之道。

  1、栈(Stack)

  任何程序执行前,预先分配一固定长度的内存空间,这块内存空间被称作栈(这种说法并不准确,但由于实际涉及到线程,在此为了不将问题复杂化才这样说明),也被叫做堆栈。那么在要求一个4字节内存时,实际是在这个已分配好的内存空间中获取内存,即内存的维护工作由程序员自己来做,即程序员自己判断可以使用哪些内存,而不是操作系统,直到已分配的内存用完。

  很明显,上面的工作是由编译器来做的,不用程序员操心,因此就程序员的角度来看什么事情都没发生,还是需要像原来那样向操作系统申请内存,然后再使用。

  但工作只是从操作系统变到程序自己而已,要维护内存,依然要耗费CPU的时间,不过要简单多了,因为不用标记一块内存是否有人使用,而专门记录一个地址。此地址以上的内存空间就是有人正在使用的,而此地址以下的内存空间就是无人使用的。之所以是以下的空间为无人使用而不是以上,是当此地址减小到0时就可以知道堆栈溢出了(如果你已经有些基础,请不要把0认为是虚拟内存地址,这里如此解释只是为了方便理解)。而且CPU还专门对此法提供了支持,给出了两条指令,转成汇编语言就是push和pop,表示压栈和出栈,分别减小和增大那个地址。

  而最重要的好处就是由于程序一开始执行时就已经分配了一大块连续内存,用一个变量记录这块连续内存的首地址,然后程序中所有用到的,程序员以为是向操作系统分配的内存都可以通过那个首地址加上相应偏移来得到正确位置,而这很明显地由编译器做了。因此实际上等同于在编译时期(即编译器编译程序的时候)就已经分配了内存(注意,实际编译时期是不能分配内存的,因为分配内存是指程序运行时向操作系统申请内存,而这里由于使用堆栈,则编译器将生成一些指令,以使得程序一开始就向操作系统申请内存,如果失败则立刻退出,而如果不退出就表示那些内存已经分配到了,进而代码中使用首地址加偏移来使用内存也就是有效的),但坏处也就是只能在编译时期分配内存。

  2、堆(Heap)

  上面的工作是编译器做的,即程序员并不参与堆栈的维护。但上面已经说了,堆栈相当于在编译时期分配内存,因此一旦计算好某块内存的偏移,则这块内存就只能那么大,不能变化了(如果变化会导致其他内存块的偏移错误)。比如要求客户输入定单数据,可能有10份定单,也可能有100份定单,如果一开始就定好了内存大小,则可能造成不必要的浪费,又或者内存不够。
为了解决上面的问题,C++提供了另一个途径,即允许程序员有两种向操作系统申请内存的方式。前一种就是在栈上分配,申请的内存大小固定不变。后一种是在堆上分配,申请的内存大小可以在运行的时候变化,不是固定不变的。

  那么什么叫堆?在Windows操作系统下,由操作系统分配的内存就叫做堆,而栈可以认为是在程序开始时就分配的堆(这并不准确,但为了不复杂化问题,故如此说明)。因此在堆上就可以分配大小变化的内存块,因为是运行时期即时分配的内存,而不是编译时期已计算好大小的内存块。


  六、变量的定义

  上面说了那么多,你可能看得很晕,毕竟连一个实例都没有,全是文字,下面就来帮助加深对上面的理解。

  定义一个变量,就是向上面说的由编译器维护的变量表中添加元素,其语法如下:

  long a;

  先写变量的类型,然后一个或多个空格或制表符(/t)或其它间隔符,接着变量的名字,最后用分号结束。要同时定义多个变量,则各变量间使用逗号隔开,如下:

  long a, b, c; unsigned short e, a_34c;

  上面是两条变量定义语句,各语句间用分号隔开,而各同类型变量间用逗号隔开。而前面的式子5+2/3-5*2,则如下书写。

  long a = 2/3, b = 5*2; long c = 5 + a – b;

  可以不用再去记那烦人的地址了,只需记着a、b这种简单的标识符。当然,上面的式子不一定非要那么写,也可以写成:long c = 5 + 2 / 3 – 5 * 2; 而那些a、b等中间变量编译器会自动生成并使用(实际中编译器由于优化的原因将直接计算出结果,而不会生成实际的计算代码)。

  下面就是问题的关键,定义变量就是添加一个映射。前面已经说了,这个映射是将变量名和一个地址关联,因此在定义一个变量时,编译器为了能将变量名和某个地址对应起来,帮程序员在前面提到的栈上分配了一块内存,大小就视这个变量类型的大小。如上面的a、b、c的大小都是4个字节,而e、a_34c的大小都是2个字节。

  假设编译器分配的栈在一开始时的地址是1000,并假设变量a所对应的地址是1000-56,则b所对应的地址就是1000-60,而c所对应的就是1000-64,e对应的是1000-66,a_34c是1000-68。如果这时b突然不想是4字节了,而希望是8字节,则后续的c、e、a_34c都将由于还是原来的偏移位置而使用了错误的内存,这也就是为什么栈上分配的内存必须是固定大小。

  考虑前面说的红色文字:“变量实际并不是一块内存,只是一个映射元素”。可是只要定义一个变量,就会相应地得到一块内存,为什么不说变量就是一块内存?上面定义变量时之所以会分配一块内存是因为变量是一个映射元素,需要一个对应地址,因此才在栈上分配了一块内存,并将其地址记录到变量表中。但是变量是可以有别名的,即另一个名字。这个说法是不准确的,应该是变量所对应的内存块有另一个名字,而不止是这个变量的名字。

  为什么要有别名?这是语义的需要,表示既是什么又是什么。比如一块内存,里面记录了老板的信息,因此起名为Boss,但是老板又是另一家公司的行政经理,故变量名应该为Manager,而在程序中有段代码是老板的公司相关的,而另一段是老板所在公司相关的,在这两段程序中都要使用到老板的信息,那到底是使用Boss还是Manager?其实使用什么都不会对最终生成的机器代码产生什么影响,但此处出于语义的需要就应该使用别名,以期从代码上表现出所编写程序的意思。

  在C++中,为了支持变量别名,提供了引用变量这个概念。要定义一个引用变量,在定义变量时,在变量名的前面加一个“&”,如下书写:

  long a; long &a1 = a, &a2 = a, &a3 = a2;

  上面的a1、a2、a3都是a所对应的内存块的别名。这里在定义变量a时就在栈上分配了一块4字节内存,而在定义a1时却没有分配任何内存,直接将变量a所映射的地址作为变量a1的映射地址,进而形成对定义a时所分配的内存的别名。因此上面的Boss和Manager,应该如下(其中Person是一个结构或类或其他什么自定义类型,这将在后继的文章中陆续说明):

  Person Boss; Person &Manager = Boss;

  由于变量一旦定义就不能改变(指前面说的变量表里的内容,不是变量的值),直到其被删除,所以上面在定义引用变量的时候必须给出别名的变量以初始化前面的变量表,否则编译器编译时将报错。

  现在应该就更能理解前面关于变量的红字的意思了。并不是每个变量定义时都会分配内存空间的。而关于如何在堆上分配内存,将在介绍完指针后予以说明,并进而说明上一篇遗留下来的关于字符串的问题。

 
 

上一篇:TList  下一篇:C++程序设计从零开始(二)