Métodos de Transformação

Quando a distribuição \(f\) está relacionada deterministicamente com putra distribuição que seja fácil de simular, pode-se explorar essa relação para construir um algoritmo de simualçao de valores de \(f\). Algumas dessas relações estão bem estabelecidas em Probabilidade, e levam a algumas das variáveis aleatórias mais conhecidas. A seguir apresenta-se uma lista não exaustiva dessas relações.

Geração de variável aleatória exponencial:

Se \(U \sim \mathcal{Unif.}(0, 1)\) a variável aleatória \(X= -\ln(U)\) tem distribuição exponencial padrão. Similarmente, \(X= \frac{-\ln(U)}{\lambda}\) tem distribuição exponencial com taxa \(\lambda\), ou seja, \(X \sim \mathcal{Exp.}(\lambda)\), Há a possibilidade de parametrizar a distribuição pela média \(\beta = \frac{1}{\lambda}\), que é o formato utilizado em Ross (2009). Essa relação entre as variáveis aleatórias uniforme a esponencial é fácil de ser verificada. Seja \(F_X\) a função de distribuição acumulada da variável aleatória \(X\) que é uma transformação de \(U\). \[ F_X(x) = \operatorname{P}\{X \leq x \} = \operatorname{P}\left\{-\frac{\ln(U)}{\lambda} \leq x \right\} = \operatorname{P}\{U \leq 1 - \operatorname{e}^{-\lambda x} \} = 1 - \operatorname{e}^{-\lambda x} \] ou seja, \(X\) tem a distribuição exponencial. A exponencial está relacionada diretamente com várias outras distribuições de probabilidade, tais como a gama, a qui-quadrado, a Poisson e, consequentemente, com as distribuições relacionada com essas. Importante observar que a exponencial pode ser parametrizada através de sua média \(\beta = \frac{1}{\lambda}\). Essa é a notação utilizada por CASELLA (2010). Esse deve ser um cuidado sempre que você for utilizar-se de comandos do R, que admite a parametrização pela taxa, ou seja, \(\lambda\). Por exemplo, o comando dexp, que é usado para calcular o valor da densidade de vetor de pontos, tem os seguintes argumentos, tendo como default \(\lambda = 1\):

dexp(x, rate = 1, log = FALSE)

Uma primeira relação de variável aleatória que pode ser gerada a partir de uma distribuição exponencial é a soma de variáveis aleatórias independentes e exponencialmente distribuídas. Formalmente, considere uma sequência de variáveis aleatórias independentes e identicamente distribuídas, \(\{U_i \}\), com \(U_1 \sim \mathcal{Unif.} (0, 1)\), então: \[ Y = -\lambda \sum_{i = 1}^n \ln(U_i) \sim \mathcal{Gama}(n, \lambda), \, a \in \mathbb{N} \] Essa soma de exponenciais independentes tem distribuição Earlang, que é um caso especial da distribuição gama. Uma outra soma conveniente de variáveis aleatorias independentes e exponencialmente distribuías, com média \(1\2\) : \[ Y = -2 \sum_{i = 1}^\nu \ln(U_i) \sim \chi^2_{2\nu}, \, \nu \in \mathbb{N} \] A variável aletatória \(\chi^2_n\) é um caso particular da ditsribuição gama, pois, \(\chi^2_n \sim \mathcal{Gama}(n/2, 1/2)\), logo, para valores de graus de liberdade pares, a \(\chi^2\) pode ser considerada uma soma de variáveis aleatórias independente e exponencialemte distribuídas, com média \(1/2\).

Outra relação envolvendo a gama, tem a ver com a razão entre um dos termos e a soma de duas gamas independentes, ou seja, considere \(X\) e \(Y\) variáveis aleatórias independentes com parâmetros \((\alpha, \lambda)\) e \((\beta, \lambda)\), então \(\frac{X}{X+Y}\) tem distribuição beta com parâmetros \((\alpha, beta)\) e é independente de \(X+Y\) (Ross 2009, pág. 335). Dessa maneira: \[ Y = \frac{\sum_{i = 1}^a \ln(U_i)}{\sum_{i = 1}^{a+b} \ln(U_i)} \sim \mathcal{Beta}(a, b), \, a, b \in \mathbb{N} \] Essas transformações são simples de usar, entretanto há limites para sua utilização, tanto com relação à eficiência da geração das variaveis aleatórias quanto com relação ao seu escopo, que poderia ser mais geral. Há algoritmos mais gerais para gerar as avriáveis aleatórias gama e beta. Da mesma maneira. com as expressões acima, não conseguimos gerar a distribuição \(\chi^2_1\), qu poderia nos fornecer uma variável aleatória normal padrão (de que maneira??).

Geração de variáveis aleatórias de Poisson:

Já vimos na últim semana que a distribuição de Poisson pode ser simulada pela geração de variáveis aleatórias exponenciais independentes até que sua soma exceda 1, ou seja, se $N () e \(X_i \sim \mathcal{Exp.(\lambda)}\), \(i \in \mathbb{N}\), então: \[ \operatorname{P}\{N = k \} = \operatorname{P}\{X_1 + \dots + X_k \leq 1 \leq X_1 + \dots + X_{k+1} \} \] Este método é simples, mas é prático apenas para pequenos valores de \(|lambda\). Em média, o número de variárias aleatórias exponenciais necessárias é \(\lambda\) e isso poderia ter um custo computacional alto para grandes valores de \(\lambda\). Como proceder para obter um gerador mais geral de Poisson?

Note que um gerador de variáveis aleatórias de Poisson pode produzir variáveis aleatórias binomiais negativas desde que \(X \sim \mathcal{Bin.Neg.}(n, p)\) quando \(Y \sim \mathcal{Gama}(n, (1-p)/p)\).

Geração de variáveis aleatórias beta:

Considere \(U_1, U_2, \dots, U_n\) uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com \(U_1 \sim \mathcal{Unif.}(0,1)\). Se \(U_{(1)} \leq U_{(2)} \leq \dots \leq U_{(n)}\) denota a amostra ordenada, ou seja as estatísticas de ordem da amostra original, então \(U_{(i)}\) tem distribuição \(\mathcal{Beta}(i, n-i+1)\) e o vetor das diferenças \(U_{(i_1)} , U_{(i_2)} - U_{(i_1)}, \dots, U_{(i_k)} - U_{(i_{k-1})}, 1 - U_{(i_k)}\) tem uma distribuição de Dirichlet, \(\mathcal{Diric.}(i_1, i_2 - i_1, \dots, n-i_k + 1)\). Entretanto, essas propriedades probabilísticas que permitem a geração de variáveis aleatórias beta, e Dirichlet, a partir da variável aleatória uniforme, não conduzem a algoritmos eficientes. O cálculo de estatísticas de ordem costumam ter um custo computacional alto, além do que essas relacões com a uniforme geram betas com parâmteros inteiros apenas.

A seguir, apresentamos o teorema de Jöhnk que pode ser uma alternativa mais geral para a geração de variáveis aleatórias beta a partir da distribuição uniforme. Esse teorema estabelece que se \(U\) e \(V\) são variáveis aleatórias independentes e com distribuição \(\mathcal{Unif.}(0, 1)\), então a distribuição de \[ \frac{U^{1/\alpha}}{U^{1/\alpha} + V^{1/\beta}}\text{,} \] condicionada a \(U^{1/\alpha} + V^{1/\beta} \leq 1\), tem distribuição \(\mathcal{Beta}(\alpha, \beta)\). Entretanto, dada a restrição \(U^{1/ \alpha} + V^{1/ \beta}\), este resultado não oferece um bom algoritmo para gerar variáveis aleatórias beta para grandes valores dos parâmetros \(\alpha\) e \(\beta\).

Geração de variáveis aleatórias gama:

Dado um gerador de variáveis aleatórias beta, podemos construir um gerador de variáveis aletórias \(\mathcal{Gama}(\alpha, 1)\), \(alpha <1\), da seguinte maneira: sejam \(Y \sim \mathcal{Beta}(\alpha, 1 - \alpha)\) e \(Z \sim \mathcal{Exp.}(1)\), então \(X = YZ \sim \mathcal{Gama}(\alpha, 1)\). Este resultado pode ser facimente verificado com a transformação \(x = yz\), \(w = z\) e integrando a função de densidade de probabilidade conjunta, encontrando-se: \[\begin{align} \tag{*} f(x) & = \frac{\Gamma(1)}{\Gamma(\alpha) \Gamma(1-\alpha)} \int_{x}^\infty \left( \frac{x}{w} \right)^{\alpha - 1} \left(1- \frac{x}{w} \right)^{-\alpha} w^{-1}\operatorname{e}^{-w} \, \mathrm{d} w \\ & = \frac{1}{\Gamma(\alpha)}x^{\alpha - 1} \operatorname{e}^{-x} \end{align}\]

há geradores mais eficientes da variável aleatória gama a partir de transformações.

Modelos de mistura:

Os modelos de mistura de distribuições são baseados na suposição de que as observações \(X\) são geradas a partir de \(k\) distribuições elementares \(f_j\) com probabilidade \(p_j\). A densidade global é: \[ X \sim p_1f_1(x) + p_2 f_2(x) + \dots p_k f_k(x). \] Assim, uma amostra de variáveis aleatórias independentes \((X_1, X_2, \dots, X_n)\) a função de verossimilhança é: \[ \prod_{i=1}^n[p_1f_1(x_i) + p_2 f_2(x_i) + \dots p_k f_k(x_i)]. \] A expansão deste produt mostra que ele envolve \(k^n\)termos elementares, com um alto custo computacional para ser calculado em grande amostras. A representação de uma densidade de probabilidade como em \(\tag{*}\) é um caso particular de uma distribuição mistura. Essa representação não apenas induz métodos computacionais relativamente eficientes, mas também estão relacionadas ao métodos relacionados com o Amostrador de Gibbs, que será estudado mais adiante na disciplina. O princípio de uma representação por mistura é representar uma densidade \(f\) como a mariginal de outra distribuição, na forma: \[ f(x) = \int_y g(x, y) \quad \mathrm{d} y \quad \text{ ou } \, f(x) = \sum_{i \in y}p_i f_i(x), \] dependendo se \(y\) for contínua ou discreta. Assim, se a distribuição \(g(x,y)\) for simples de simular, então a variável \(X\) pode ser obtida com um componente do par \((X, Y)\) gerado. Por outro lado, se as distribuições componentes \(f_i\) podem ser geradas facilmente, \(X\) pode ser obtida escolhendo-se \(f_i\), com probabilidade \(p_i\) e então gerando uma observação de \(f_i\).

Referências

CASELLA, Roger L, George e BERGER. 2010. Inferência Estatı́stica. São Paulo: Cengage Learning.

Ross, Sheldon. 2009. Probabilidade: Um Curso Moderno Com Aplicaçoes. Bookman Editora.