segunda-feira, 14 de junho de 2010

A lei de Benford

Muitos conjuntos de dados apresentam uma propriedade interessante: os primeiros dígitos não aparecem todos com a mesma freqüência.

A lei de Benford prevê que os dígitos mais baixos apareçam com maior freqüência.

Esta lei funciona especialmente bem com números que crescem exponencialmente como preços e salários. O crescimento exponencial torna os dígitos mais altos mais raros, porque eles somem rapidamente. Se um produto tem um preço inicial 100, ele vai ficar valendo entre 100 e 199 o dobro do tempo que ficará valendo entre 200 e 299. Isto porque a inflação e os juros são cumulativos e, portanto, crescem exponencialmente.

Então, armado com este novo conhecimento, decidi avaliar minha base de preços.

select
substr(preco, 1, 1),
trunc((count(1)/29528)*100,2)
from produtos
group by substr(preco, 1, 1)
order by 2 desc

Em primeiro lugar, contei os registros para simplificar a consulta e fazer o cálculo mais rapidamente. Já dá para deduzir que tenho 29.528 registros. Os dados são do mundo real; eu não gerei números aleatoriamente.

A tabela abaixo mostra a distribuição dos primeiros dígitos:

DígitoFFe
133,65%30,1%
217,49%17,6%
312,93%12,5%
49,49%9,7%
58,71%7,9%
66,26%6,7%
74,83%5,8%
83,9%5,1%
92,7%4,6%

F é a freqüência encontrada e Fe é a freqüência esperada. Como se pode ver, a previsão chegou muito perto da realidade.

Essa lei, além de ser curiosa, é útil para apontar dados problemáticos na contabilidade forense. Distribuições muito estranhas podem colocar em evidência tentativas de esconder maracutaias financeiras.

4 comentários:

Anônimo disse...

Já pensou em estudar física ?

Anônimo disse...

Para as unidades e dezenas a distribuição deve ser mais homogênea. Será ?

forinti disse...

A distribuição vai se tornando mais homogênea para os dígitos seguintes, mas ainda é interessante usá-los.

Esse artigo tem mais detalhes: http://www.journalofaccountancy.com/Issues/1999/May/nigrini.htm

forinti disse...

Física é uma área da Informática!

Taí um bom assunto para escrever.