戴尔指数(英语:Theil Index)又称为泰尔指数[1],是一个衡量经济不平等[2]的统计量。它也曾经用来衡量其他社会不平等现象,如种族隔离[3][4][5]。
戴尔指数主要是利用信息论中的资讯熵的概念导出的。戴尔指数等于资讯冗余,也就是资料最大可能资讯熵减去观测到的资讯熵,它是广义熵指数的特例,可以被视为冗余度、单样性、不平等、非随机性和可压缩性的度量。[5]
戴尔指数最早由荷兰鹿特丹伊拉斯姆斯大学的计量经济学家亨利·戴尔(Henri Theil)所提出。[5]
假设一个人口为N的群体,其收入分别为xi (i = 1,...,N),则它的戴尔指数T定义为[6]:
![{\displaystyle T_{T}=T_{\alpha =1}={\frac {1}{N}}\sum _{i=1}^{N}{\frac {x_{i}}{\mu }}\ln \left({\frac {x_{i}}{\mu }}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/83d79be6674579085cbb2bf9a6048e5d8bc68a8e)
而戴尔指数L则定义为
![{\displaystyle T_{L}=T_{\alpha =0}={\frac {1}{N}}\sum _{i=1}^{N}\ln \left({\frac {\mu }{x_{i}}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d0c448553e879aaced28310229bb12725053ca5e)
其中
为第
个人的收入,
为平均收入,
为人口数量。加总符号中的第一项可以理解为个人在总收入中所占的比例,第二项为该个人相对于均值的收入。
如果收入分布是个离散分布函数 fk (k = 0,...,W),其中fk是收入为k的人口比例,而W = Nμ 代表总收入,可以得知
。
它的戴尔指数T定义为:
![{\displaystyle T_{T}=\sum _{k=0}^{W}\,f_{k}\,{\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/68b4a660e2b5e9d291f14fd2733911ec6b85bc6b)
这里的
一样是收入平均
![{\displaystyle \mu =\sum _{k=0}^{W}kf_{k}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/28cbcb828c0ca2b4790591effdde3f5cde5c75bd)
其中应注意到收入k是一个整数,k=1代表最小收入增量(比如新台币1元)。
如果收入分布是个连续分布函数f(k),k取值0到无穷,其中f(k) dk 是收入为k 到 k + dk的人口数量,那戴尔指数T定义为:
![{\displaystyle T_{T}=\int _{0}^{\infty }f(k){\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)dk}](https://wikimedia.org/api/rest_v1/media/math/render/svg/efecd55ca5be6098f4e3e6ce1184b463033b4bb6)
其中平均
为:
![{\displaystyle \mu =\int _{0}^{\infty }kf(k)\,dk}](https://wikimedia.org/api/rest_v1/media/math/render/svg/374b8d5bbc883206a3e15122de683587c3b87678)
一些常见连续概率分布的戴尔指数如下表所示:
收入分布函数 |
PDF(x) (x ≥ 0) |
戴尔指数(纳特)
|
狄拉克δ函数 |
![{\displaystyle \delta (x-x_{0}),\,x_{0}>0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/db5b0aa87688e6070ee35465aee14f4de31b8a10) |
0
|
连续型均匀分布
|
|
|
指数分布
|
|
|
对数正态分布
|
|
|
帕累托分布
|
|
(α>1)
|
卡方分布
|
|
![{\displaystyle \psi ^{(0)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80c4a6496a6abadc15d4bccfc091316f26c4f0c8)
|
伽玛分布
|
|
![{\displaystyle \psi ^{(0)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80c4a6496a6abadc15d4bccfc091316f26c4f0c8)
|
韦伯分布
|
|
![{\displaystyle \psi ^{(0)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80c4a6496a6abadc15d4bccfc091316f26c4f0c8)
|
如果每一个人都有相同的收入,即等于均值,则指数为零。如果某个个人拥有所有的收入,则指数为
。TT 除以
可以将方程归一化到0到1的范围,但这样违反独立公理:
并不符合衡量不平等的标准。
戴尔指数导自克劳德·夏农的信息熵,他的一般数学形式为:
![{\displaystyle S=k\sum _{i=1}^{N}\left(p_{i}\log {\frac {1}{p_{i}}}\right)=-k\sum _{i=1}^{N}\left(p_{i}\log {p_{i}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/592811e5b1b851501de0abb7cebbe766167e308e)
其中
是从人群里找到
的几率。
是玻尔兹曼常数。在信息论中,当信息以二进制数字给出时,
并且对数基底为2。在物理学和戴尔指数的计算中,选择自然对数作为对数基底。当
替换成人均收入
时,需要除以总收入达到归一化
。那可以导出,观察到的信息熵为:
![{\displaystyle S_{\text{Theil}}=\sum _{i=1}^{N}\left({\frac {x_{i}}{N{\overline {x}}}}\ln {\frac {N{\overline {x}}}{x_{i}}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/30a5448b5e44753214718e860f8d64e67fca2054)
设
为戴尔指数,
为夏农熵,则有
其中,ln(N)是理论最大熵。香浓根据事件发生概率导出的其熵测度。它可以用戴尔系数解释为自某个特定个人处随机取得一块钱的概率。并与其第一项,即总收入中个人所占份额相同。
符号 |
信息论 |
戴尔指数 TT
|
![{\displaystyle N}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f5e3890c981ae85503089652feb48b191b57aae3) |
字符数 |
人口数
|
![{\displaystyle i}](https://wikimedia.org/api/rest_v1/media/math/render/svg/add78d8608ad86e54951b8c8bd6c8d8416533d20) |
某个特定字符 |
某个特定人
|
![{\displaystyle x_{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e87000dd6142b81d041896a30fe58f0c3acb2158) |
第i个字符 character |
第i个人的收入
|
![{\displaystyle N{\overline {x}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/509c62c22ab68f36de1209c8aa1af66db64a2bc4) |
总字符数 |
总收入
|
![{\displaystyle T_{T}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f0f690d607e62041991925f1c2defcd216c0950) |
未被使用的资讯空间 |
未使用潜在价格机制
|
戴尔指数的一个优点是它是某个子群体中不平等的加权和[1]。例如,美国国内的不平等就是每个州的不平等的加权和,由该州收入相对于国家总收入的比值来加权。
如果人口被划分为
个子群体,
为群体
的收入比例,
为该子群体的戴尔指数,而
为子群体
的平均收入,则戴尔指数为
![{\displaystyle T=\sum _{k=1}^{m}s_{k}T_{T_{k}}+\sum _{k=1}^{m}s_{k}\ln {\frac {{\overline {x}}_{k}}{\overline {x}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7c3a450478566580aa107cfe59d7245bdd384cf0)
因此,我们可以说某个特定群体给总体“贡献了”一定数量的不平等。
另外一个被广泛使用的不平等度量为基尼系数,该系数对于很多人来说由于基于劳伦茨曲线而非常直观。但是它却没有戴尔指数容易分解。