分页: 1 / 1

本福特定律 (Newcomb–Benford law)

发表于 : 22 4月 2026, 09:28
shepherd17

https://en.wikipedia.org/wiki/Benford%27s_law

本福德定律(Benford's Law),又称第一数字定律。这条法则不仅是自然数分布的内在规律,也是法务会计、数据分析和审计中用于检测数据造假的神奇“法宝”。

1、本福德定律的具体分布

在一组未经人为操纵、跨越多个数量级的自然真实数据中,首位数字(从1到9)出现的概率并非均等,而是呈非线性递减:

• 开头是1: 约占 30.1%
• 开头是2: 约占 17.6%
• 开头是3: 约占 12.5%
• 开头是4: 约占 9.7%
• 开头是5: 约占 7.9%
• 开头是6: 约占 6.7%
• 开头是7: 约占 5.8%
• 开头是8: 约占 5.1%
• 开头是9: 约占 4.6%

2、适用范围

该定律适用于许多自然生成的数据集:

  • 自然数据: 河流流量、人口数量、国土面积、放射性半衰期、物理化学常数。
  • 财务数据: 发票金额、费用报销记录、公司销售数据、银行账户余额、会计分录。 

3、为什么能用于“防舞弊”?

因为人类在虚构数据时,通常会本能地认为1-9出现的概率是相等的(即每个约11%)。因此,如果一个人试图伪造财务报表或账单,他们造假的数字分布往往会偏离本福德分布(例如,8或9开头的数字会远高于自然分布)。

分析人员会计算数据的KS值(实际差异)并将其与标准值进行对比,以判断数据是否为自然生成。如果分布偏离显著,则存在高度的舞弊风险。

4、关键局限

该定律并非万能,适用条件通常包括:

  • 数据量大: 需要足够多的样本。
  • 跨越数量级: 数据范围应覆盖几个幂次(例如从10到100000)。
  • 无人为操纵: 数据必须是自然产生的,而非人为设定的上限或下限(如所有员工工资均在5000-6000之间,就不会服从本福德定律)。 

图片
根据本福特定律,数字的首位数字分布情况。每个柱状条代表一个数字,柱子的高度表示以该数字作为首位数字的数值所占的百分比。


Re: 本福特定律 (Newcomb–Benford law)

发表于 : 22 4月 2026, 11:45
牛大春

感觉这个规律和心理学有关。


Re: 本福特定律 (Newcomb–Benford law)

发表于 : 22 4月 2026, 11:50
shepherd17
牛大春 写了: 22 4月 2026, 11:45

感觉这个规律和心理学有关。

这个规律应该是天然存在的。那些习惯做假账的、又不知道这个定律的会计师,做出来的假账往往违背这个定律。

不知道这个规律的会计不是好的造假会计。


Re: 本福特定律 (Newcomb–Benford law)

发表于 : 22 4月 2026, 14:35
crane
牛大春 写了: 22 4月 2026, 11:45

感觉这个规律和心理学有关。

是因为我们采取的是十进制。几何级数的首位数字成对数分布 pk = log10 (k+1) - log10 (k) , k = 1, 2, 3...
比如 p_1 = log10 2 = 0.301...
p_2 = log10 3 - log10 2 = 0.176...


Re: 本福特定律 (Newcomb–Benford law)

发表于 : 05 5月 2026, 13:25
Leuning
shepherd17 写了: 22 4月 2026, 09:28

https://en.wikipedia.org/wiki/Benford%27s_law

本福德定律(Benford's Law),又称第一数字定律。这条法则不仅是自然数分布的内在规律,也是法务会计、数据分析和审计中用于检测数据造假的神奇“法宝”。

1、本福德定律的具体分布

在一组未经人为操纵、跨越多个数量级的自然真实数据中,首位数字(从1到9)出现的概率并非均等,而是呈非线性递减:

• 开头是1: 约占 30.1%
• 开头是2: 约占 17.6%
• 开头是3: 约占 12.5%
• 开头是4: 约占 9.7%
• 开头是5: 约占 7.9%
• 开头是6: 约占 6.7%
• 开头是7: 约占 5.8%
• 开头是8: 约占 5.1%
• 开头是9: 约占 4.6%

2、适用范围

该定律适用于许多自然生成的数据集:

  • 自然数据: 河流流量、人口数量、国土面积、放射性半衰期、物理化学常数。
  • 财务数据: 发票金额、费用报销记录、公司销售数据、银行账户余额、会计分录。 

3、为什么能用于“防舞弊”?

因为人类在虚构数据时,通常会本能地认为1-9出现的概率是相等的(即每个约11%)。因此,如果一个人试图伪造财务报表或账单,他们造假的数字分布往往会偏离本福德分布(例如,8或9开头的数字会远高于自然分布)。

分析人员会计算数据的KS值(实际差异)并将其与标准值进行对比,以判断数据是否为自然生成。如果分布偏离显著,则存在高度的舞弊风险。

4、关键局限

该定律并非万能,适用条件通常包括:

  • 数据量大: 需要足够多的样本。
  • 跨越数量级: 数据范围应覆盖几个幂次(例如从10到100000)。
  • 无人为操纵: 数据必须是自然产生的,而非人为设定的上限或下限(如所有员工工资均在5000-6000之间,就不会服从本福德定律)。 

图片
根据本福特定律,数字的首位数字分布情况。每个柱状条代表一个数字,柱子的高度表示以该数字作为首位数字的数值所占的百分比。

为什么没有人用这个原理买彩票? 可以Beat odds 吗?