转贴:基尼系数的计算方法与中国的基尼系数估计
文/更远大侠
基尼系数是20世纪初意大利经济学家基尼,根据劳伦茨曲线所定义的判断收入分配公平程度的指标。是比例数值,在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标[1]。(百度百科基尼系数词条http://baike.baidu.com/view/186.htm)
基尼系数是反映一组数据离散程度的指标,其功能类似于标准差。基尼系数(或标准差)越大,那么平均指标(以平均数为代表,还包括中位数与众数)对于一组数据的代表性越差;基尼系数(或标准差)越小,则平均指标对于一组数据的代表性越好。(参见任何一本统计学教材)
基尼系数的计算依赖于洛伦茨曲线。下面先介绍洛伦茨曲线,再介绍基尼系数的计算。
一、洛伦茨曲线
洛伦茨曲线是在一个横坐标为人数比例、纵坐标为财富(或收入)比例的坐标系中的一条曲线。我们假设一个国家或地区的人口,按照财富从低到高的顺序从左到右排列,然后以财富从低到高的顺序分别统计向上累计人口比例与其所占财富比例,并将这两个数据分别作为横坐标与纵坐标画在坐标系中。
为简单计,我们假设有下面表1的数据。
表1 某国家财富分配的假设数据
人口百比分 | 0-20 | 20-40 | 40-60 | 60-80 | 80-100 |
每组财富所占百分比 | 3 | 8 | 10 | 15 | 64 |
向上累计财富百分比 | 3 | 11 | 21 | 36 | 100 |
也就是说,最少财富的20%人口,只占有3%的财富;而最少财富的40%人口中,只占有11%的财富;最少财富的60%人口,只占有21%的财富;最低财富的80%人口占有财富比例为36%;当然最后100%的人口占有财富100%。
于是就可以描绘出洛伦茨曲线的六个点,O(0,0),A(20,3),B(40,11),C(60,21),D(80,36),E(100,100)。如图1所示,折线OABCDE就是洛伦茨曲线。
洛伦茨曲线通常是一条向下凸的曲线。为什么,因为人口是按照财富从低到高排列的,排在右边的人的财富总是大于或等于左边的人的财富。于是每增加一个人时,其增加的边际财富比例是增递的,边际财富比例递增,即表现为洛伦茨曲线是向下凸的曲线。在连续近似的情况下,相当于洛伦茨曲线的二阶导数大于0。
二、洛伦茨曲线与财富分配
一个社会财富分配的不同状况对应于不同的洛伦茨曲线,可以证明,贫富分化越大,则洛伦茨曲线曲线的位置越低;贫富分化程度越小,则洛伦茨曲线曲线的位置越高;如果财富在人们之间完全平均分配,那么洛伦茨曲线曲线就是直线段OFGHJE,这时候财富比例与人口比例同等程度地增长。
为了理解洛伦茨曲线的位置与贫富分化的关系,下面假设有两个国家甲国与乙国。其人口按照财富从低到高排列的情况如表2所示。图2画出了甲国与乙国两个国家的洛伦茨曲线。
表2 两个国家财富分配的假设数据
人口百比分 | 0-20 | 20-40 | 40-60 | 60-80 | 80-100 |
甲国每组财富所占百分比 | 3 | 8 | 10 | 15 | 64 |
甲国向上累计财富百分比 | 3 | 11 | 21 | 36 | 100 |
乙国每组财富所占百分比 | 8 (注) | 12 | 15 | 20 | 48 |
乙国向上累计财富百分比 | 5 | 17 | 32 | 52 | 100 |
注:原文有误,此数值应为5——2011.5.7
可以看到,甲国的财富分化从直观上看比乙国的财富分化要大,因而其洛伦茨曲线的位置比乙的洛伦茨曲线位置要低。
因此,可以预测,贫富分化越大,则其洛伦茨曲线与绝对平均张OE之间围成的面积越大;反之,贫富分化越小,则其洛伦茨曲线与绝对平均张OE之间围成的面积越小。因此,观察洛伦茨曲线与绝对平均张OE之间的面积占三角形OKE的比例,就可以大致确定一个国家的贫富分化程度,这就是基尼系数。
三、基尼系数的定义
基尼系数定义为洛伦茨曲线与绝对平均线之间的面积与三角形OKE面积的比例。如图3所示:
基尼系数=X/(X+Y)=OABCDEJHGFO的面积/三角形OKE的面积
显然,基尼系数应该在[0,1]这个区间之中。当洛伦茨曲线是绝对平均线时,洛伦茨曲线与绝对平均线围成的面积就是0,从而此时基尼系数等于0,这就是财富绝对平均分配时的基尼系数。当财富分配绝对不平等,即所有财富只集中在一个人手里时,洛伦茨曲线就是折线OKE,这时候的基尼系数就等于1,因为这时候洛伦茨曲线与绝对平均线之间的面积就等于三角形OKE的面积了。
四、基尼系数的计算
通常情况下,知道了一些财富分配的数据,便可以画出洛伦茨曲线,从而可以采用几何方法算出洛伦茨曲线与绝对平均线之间的面积,进而可以求出基尼系数。可以先求出洛伦茨曲线下方与折线OKE之间的面积,然后用三角形OKE的面积减去这个面积就得到洛伦茨曲线与绝对平均线所围成的面积了。
设人口按照财富从低到高排列,其人口分组比重分别为P1、P2、…、Pi、…、Pn。每组财富比重依次为:w1、w2、…、wi、…、wn ;其向上累计的比重分别为W1(=w1)、W2、…、Wi、…、Wn=1。则洛伦茨曲线下方与折线OKE围成的面积应该为:
当人口比重相同时,Pn=1/n,则
于是X=0.5-Y
故基尼系数g=X/0.5=2X=2(0.5-Y)=1-2Y
例:以表2所示数据为例,计算甲国与乙国的基尼系数。
人口百比分 | 0-20 | 20-40 | 40-60 | 60-80 | 80-100 |
每组人口百分比 | 0.2 | 0.2 | 0.2 | 0.2 | 0.2 |
甲国每组财富所占百分比 | 3 | 8 | 10 | 15 | 64 |
甲国向上累计财富百分比 | 3 | 11 | 21 | 36 | 100 |
乙国每组财富所占百分比 | 8 (注)
| 12 | 15 | 20 | 48 |
乙国向上累计财富百分比 | 5 | 17 | 32 | 52 | 100 |
注:原文有误,此数值应为5——2011.5.7
甲国的基尼系数g1 =1-0.2[2×0.71+1]=1-0.2×2.42=0.516
乙国的基尼系数g2= =1-0.2[2×1.06+1]=1-0.2×3.12=0.376
这验证了前面得出的结论——甲国的基尼系数比乙国的基尼系数大。
五、基尼系数与标准差计算的比较
基尼系数的计算不同于标准差的计算。标准差的计算通常需要全部的数据信息,而基尼系数的计算则只需要少量分组比重信息就可以估算。比如即使知道一个财富分配的比例数据,也可以估算基尼系数。因为,只要知道洛伦茨曲线上不同于两个端点O点与E点的任意一个点,那么就可以把这个点与原点O与右上角的项点E点连成一个折线,从而这个折线就是已知这一个数据而形成的洛伦茨曲线。如果知道更多的数据,那么这个折线可以画得更详细,但是容易证明,那就是,假设已知数据之间不包含矛盾,那么当一个分组数据集M是另一个分组数据集N的子集时,那么穿过数据集N的洛伦茨曲线也穿过数据集M的洛伦茨曲线,穿过数据集M的洛伦茨曲线构成穿过数据集N的洛伦茨曲线的一个子集。并且穿过数据集N的洛伦茨曲线位于穿过数据集M的洛伦茨曲线的下方。从而所知数据越少,所画的洛伦茨曲线的近似折线与绝对平均线即45度线之间的面积越小,从而所知数据越少,估算的基尼系数与真实的基尼系数相比,将会变得更小。从而,从理论上讲,知道一个数据所估计的基尼系数将大大小于真实的基尼系数。
下面以中国的财富分配数据为例来说明这一点。
据中国社会科学院研究结果,在2009年“0.4%的中国人占有70%的财富”,以此为关键词在网络上搜索可以得到大量这方面的报道。
由此可知,低收入群体的99.6%的人口只占有中国财富总量的30%。为了方便起见,下面以1000作为坐标正方形的边长。画出洛伦茨曲线曲线如下:
在上图中,已知“0.4%的中国人占有70%的财富”,则洛伦茨曲线为OAE折线。其中A点坐标为(996,300),E点坐标为(1000,1000)。为计算基尼系数,先计算三角形OCA、三角形ABE与矩形ACKB的面积。
三角形OCA的面积=996×300/2=149400
三角形ABE的面积=700×4/2=1400
矩形ACKB的面积=300×4=1200
从而洛伦茨曲线下方的面积=149400+1400+1200=152000
而三角形OKE的面积=1000×1000/2=500000
从而洛伦茨曲线与绝对平均线之间围成的面积=500000-152000=348000
从而基尼系数g=348000/500000=0.696
因此,可以知道,中国在2009年的实际基尼系数应该大于0.696。上面已经说过,只通过一个数据所估算的基尼系数要小于实际的基尼系数。
二〇一〇年十月二十六日10时29分21秒
评论