---
title: "Variáveis Aleatórias Discretas"
format: html
---
```{r}
#| warning: false
#| echo: false
# Load required libraries
#getwd()
source("../../functions.R") # descendo dois níveis do caminho atual
```
Quando são atribuídas probabilidades a diversos resultados de $\Omega$, elas, por sua vez, determinam probabilidades
associadas aos valores de qualquer V.A $X$ em particular.
A distribuição de probabilidade de $X$ expressa como a probabilidade total 1 é distribuída entre os diversos valores possíveis de $X$
## Função Massa de Probabilidade
Variáveis aleatórias são tão importantes em experimentos aleatórios que às vezes essencialmente ignoramos o espaço amostral original do experimento e nos concentramos na distribuição de probabilidade da variável aleatória.
::: {.exemplo icon="false"}
#### Exemplo
Um sistema de comunicação por voz para uma empresa contém 48 linhas externas. Em um determinado momento, o sistema é observado e algumas das linhas estão sendo usadas.
Seja a variável aleatória $X$ denotando o *número de linhas em uso*. Então $X$ pode assumir qualquer um dos valores inteiros de $0$ a $48$. Quando o sistema é observado, se 10 linhas estão em uso, então $x = 10$.
:::
Nossa análise pode se concentrar exclusivamente nos inteiros $\{0, 1, . . . , 48\}$ no intervalo de $X$. Dessa forma, uma variável aleatória pode simplificar a descrição e a análise de um experimento aleatório.
A distribuição de probabilidade de uma variável aleatória $X$ é uma descrição das probabilidades associadas aos valores possíveis de $X$.
Para uma variável aleatória discreta, a distribuição é frequentemente especificada apenas por uma lista dos valores possíveis juntamente com a probabilidade de cada um. Em alguns casos, é conveniente expressar a probabilidade em termos de um **modelo matemático**.
::: {.callout-important icon="false"}
## Função Massa de Probabilidade (FMP)
Para uma variável aleatória discreta $X$ com valores possíveis $x_1, x_2, \dots, x_n$, a função massa de probabilidade é uma função tal que
- $p_X(x_i) \ge 0$ para todo $i = 1, 2, \dots, n$
- $\sum_{i=1}^{n} p_X(x_i) = 1$
- $p_X(x_i) = P(X=x_i)$
:::
## Distribuição de Probabilidade
A distribuição de probabilidade de uma variável aleatória $X$ é uma descrição das probabilidades associadas aos valores possíveis de $X$.
::: {.callout-important icon="false"}
## Distribuição de Probabilidade
A distribuição de probabilidade de uma variável aleatória $X$ é uma descrição das probabilidades associadas aos valores possíveis de $X$.
A figura abaixo mostra a distribuição de probabilidade de uma variável aleatória $X$ com valores possíveis $x_1, x_2, \dots, x_n$.
```{r}
#| echo: false
#| label: fig-fmp-exemplo2
#| fig-cap: "Distribuição de probabilidade (discreta)"
x_orig <- c(1, 2, 3, 4, 5)
y_orig <- c(0.1, 0.2, 0.3, 0.2, 0.2)
plot_probabilidade(
x = x_orig, y = y_orig,
titulo_x = "Distribuição de Probabilidade"
)
```
:::
## Função Distribuição Acumulada (FDA)
A função distribuição acumulada (FDA) de uma variável aleatória discreta $X$ é uma função tal que
- $F_X(x) = P(X \le x)$
- $F_X(x) \ge 0$ para todo $x$
- $F_X(x) \to 0$ quando $x \to -\infty$
- $F_X(x) \to 1$ quando $x \to \infty$
Para um valor fixo $x$, normalmente desejamos computar a probabilidade de o valor observado de $X$ ser no máximo $x$.
Por exemplo, para o caso anterior, temos:
- $F_X(1) = P(X \le 1) = P(X=1) = 0.1$
- $F_X(2) = P(X \le 2) = P(X=1) + P(X=2) = 0.1 + 0.2 = 0.3$
- $F_X(3) = P(X \le 3) = P(X=1) + P(X=2) + P(X=3) = 0.1 + 0.2 + 0.3 = 0.6$
- $F_X(4) = P(X \le 4) = P(X=1) + P(X=2) + P(X=3) + P(X=4) = 0.1 + 0.2 + 0.3 + 0.2 = 0.8$
- $F_X(5) = P(X \le 5) = P(X=1) + ... + P(X=5) = 0.1 + ... + 0.2 = 1.0$
::: {.callout-important icon="false"}
## Função Distribuição Acumulada (FDA)
A função de distribuição acumulada (FDA) $F(x)$ de uma variável aleatória discreta $X$ com FMP $p_X(x)$ é definida para cada valor de $x$ por
$$ F(x) = P(X \le x) = \sum_{y: y \le x} p_X(y) $$
Para qualquer valor $x$, $F(x)$ é a probabilidade de o valor $X$ observado ser no máximo $x$.
:::
## Distribuição Acumulada
A distribuição acumulada do exemplo anterior pode ser representada de forma gráfica, como visto abaixo:
```{r}
#| echo: false
#| warning: false
#| label: fig-fda-exemplo2
#| fig-cap: "Distribuição acumulada (discreta)"
x_orig <- c(0, 1, 2, 3, 4, 5, 6)
y_orig <- c(0, 0.1, 0.3, 0.6, 0.8, 1.0, 1.0)
plot_probabilidade_cumulativa(
x = x_orig, y = y_orig,
titulo_x = "Distribuição Acumulada"
)
```
## Valor Esperado
Valor Esperado, Média ou Expectância de uma Variável Aleatória Discreta, é a média ponderada dos valores possíveis de $X$, onde os pesos são as probabilidades de cada valor.
$$
E[X] = \mu = \sum_x{x\cdot p_X(x)}
$$
**Interpretação**
- É o valor que em média se espera obter em uma grande quantidade de tentativas independentes de um experimento aleatório.
- É o valor esperado em média que irá ocorrer nessas condições.
- É o centro de gravidade da distribuição de probabilidade.
### Propriedades do Valor Esperado
Sejam $X$ e $Y$ variáveis aleatórias discretas e $c$ uma constante:
- $E[c] = c$, ou seja o que se espera em média de uma constante é a própria constante.
- $E[cX] = cE[X]$, propriedade da linearidade do valor esperado.
- $E[aX + b] = aE[X] + b$, propriedade da linearidade do valor esperado.
- $E[X\pm Y] = E[X] \pm E[Y]$
- $E[X\pm c] = E[X] \pm E[c] = E[X] \pm c$
- $E[XY] = E[X]E[Y]$ se forem independentes.
Temos ainda, que o valor esperado de uma função de uma variável aleatória discreta é dado por:
$$E[g(X)] = \sum_x{g(x)\cdot p_X(x)}$$
::: {.exemplo icon="false"}
#### Exemplo: valor esperado
Após cada nascimento, os bebês são classificados de acordo com uma escala denominada Apgar. As classificações possíveis são $0, 1,\dots, 10$, com a classificação do bebê determinada por cor, tônus muscular, esforço respiratório, batimentos cardíacos e irritabilidade reflexas (a melhor pontuação possível é 10).
Seja $X$ *o escore Apgar de uma criança selecionada aleatoriamente em um determinado hospital no próximo ano* e suponha que a FMP de $X$ seja dada por:
| $x$ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| $p_X(x)$ | 0.002 | 0.001 | 0.002 | 0.005 | 0.02 | 0.04 | 0.18 | 0.37 | 0.25 | 0.12 | 0.01 |
```{r}
#| echo: false
#| warning: false
#| label: fig-fdm-apgar
#| fig-cap: "Distribuição de probabilidade"
x_orig <- c(0, 1, 2, 3, 4, 5, 6,7,8,9,10)
y_orig <- c(0.002, 0.001, 0.002, 0.005, 0.02, 0.04 , 0.18 , 0.37 , 0.25 , 0.12 , 0.01)
plot_probabilidade(
x = x_orig, y = y_orig,
titulo_x = "Distribuição de probabilidade",
decimais = "%.3f"
)
```
O valor esperado de $X$ é:
$$E[X] = \mu = \sum_{x=0}^{10} x \cdot p_X(x) = 0 \cdot 0.002 + 1 \cdot 0.001 + \dots + 10 \cdot 0.01 = 7.15$$
Ou seja, espera-se que o *escore Apgar de uma criança selecionada aleatoriamente em um determinado hospital no próximo ano* seja, em média, $7.15$.
Note que o valor esperado, $E[X] = \mu$, não é necessariamente um valor possível da variável $X$.
:::
::: {.exemplo icon="false"}
#### Exemplo: valor esperado de uma função $g(X)$
Suponha que uma livraria compre $10$ cópias de um livro a R$ 60.00 cada para vendê-las a R$ 120.00, sabendo que ao fim de um período de $3$ meses os livros não vendidos podem ser devolvidos por R$ 20.00.
Se $X$ é o *número de cópias vendidas no período* e $g(X)$ é a *receita líquida no período*, então $g(X) = 120X + 20(10 - X) - 600 = 100X - 400$ [R$].
Com base em dados históricos, a FMP de $X$ é dada por:
| $x$ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| $p_X(x)$ | 0.03 | 0.05 | 0.07 | 0.18 | 0.20 | 0.15 | 0.15 | 0.08 | 0.02 | 0.01 | 0.06 |
A distribuição de probabilidade do número de livros vendidos no período é dada por:
```{r}
#| echo: false
#| warning: false
#| label: fig-fdm-livraria
#| fig-cap: "Distribuição de probabilidade do número de livros vendidos no período"
x_orig <- c(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
y_orig <- c(0.03, 0.05, 0.07, 0.18, 0.20, 0.15, 0.15, 0.08, 0.02, 0.01, 0.06)
#sum(y_orig)
#x_orig*y_orig
#sum(x_orig*y_orig)
plot_probabilidade(
x = x_orig, y = y_orig,
titulo_x = "Distribuição de probabilidade",
decimais = "%.2f"
)
```
O valor esperado de $X$ é:
$$
\begin{aligned}
E[X] = \mu &= \sum x \cdot p_X(x) \\
&= 0 \cdot 0.03 + 1 \cdot 0.05 + 2 \cdot 0.07 + 3 \cdot 0.18 + 4 \cdot 0.20 + 5 \cdot 0.15 \\
&+ 6 \cdot 0.15 + 7 \cdot 0.08 + 8 \cdot 0.02 + 9 \cdot 0.01 + 10 \cdot 0.06 \\
&= 4.59
\end{aligned}
$$
Ou seja, espera-se que o *número de cópias vendidas no período* seja, em média, $4.59$.
O valor esperado de $g(X)$, aplicando a **propriedade da linearidade do valor esperado** é:
$$
\begin{aligned}
E[g(X)] &= E[100X - 400] \\
&= 100E[X] - 400 \\
&= 100(4.59) - 400 \\
&= 459 - 400 \\
&= 59
\end{aligned}
$$
Ou seja, espera-se que a *receita líquida no período* seja, em média, R$ 59,00.
É possível calcular o valor esperado de $g(X)$ de outra forma, mais trabalhosa, construindo a distribuição de probabilidade de $g(X)$ e em seguida calculando o valor esperado de $g(X)$ sem utilizar a propriedade da linearidade do valor esperado:
| $g(x)$ | -400 | -300 | -200 | -100 | 0 | 100 | 200 | 300 | 400 | 500 | 600
|---|---|---|---|---|---|---|---|---|---|---|---|
| $p_X(x)$ | 0.03 | 0.05 | 0.07 | 0.18 | 0.20 | 0.15 | 0.15 | 0.08 | 0.02 | 0.01 | 0.06 |
$$
\begin{aligned}
E[g(X)] = \mu &= \sum g(x) \cdot p_X(x) \\
&= -400 \cdot 0.03 + (-300) \cdot 0.05 + (-200) \cdot 0.07 + (-100) \cdot 0.18 + 0 \cdot 0.20 + 100 \cdot 0.15 \\
&+ 200 \cdot 0.15 + 300 \cdot 0.08 + 400 \cdot 0.02 + 500 \cdot 0.01 + 600 \cdot 0.06 \\
&= 59
\end{aligned}
$$
:::
## Variância e Desvio Padrão
Embora o valor esperado forneça o valor médio da variável aleatória, muitas vezes precisamos de uma medida de variabilidade ou dispersão. Assim a variância serve para resumir a variabilidade dos valores de uma variável aleatória. A variância de uma variável aleatória discreta é dada por:
$$
V(X) = \sigma^2 = \sum_x{(x-\mu)^2 p_X(x)}
$$
Uma fórmula alternativa para calcular a variância é:
$$
\begin{aligned}
V(X) = \sigma^2 &= E[(X-\mu)^2] \\
&= E[X^2] - (E[X])^2 \\
&= E[X^2] - \mu^2
\end{aligned}
$$
O desvio padrão é dado por:
$$
DP(X) = \sigma = \sqrt{V(X)}
$$
::: {.exemplo icon="false"}
#### Exemplo: variância e desvio padrão
Continuação do exemplo anterior, temos que, da livraria, a variância e o desvio padrão são:
Seja $X$ o *número de livros vendidos no período* e $g(X)$ a *receita líquida no período*. Então $g(X) = 100X - 400$ [R$].
Para $X$ o valor esperado obtido foi $E[X] = 4.59$ e para $g(X)$ o valor esperado obtido foi $E[g(X)] = 59$.
A variância e o desvio padrão para $X$ são:
$$
\begin{aligned}
V(X) = \sigma^2 &= \sum_x{(x-\mu)^2 p_X(x)} \\
&= \sum_x{(x-4.59)^2 p_X(x)} = 5.2419
\end{aligned}
$$
Para calcular $V(X)$ uma tabela pode ser conveniente, como segue:
::: {#tbl-fmp-exemplo .w-50 .mx-auto}
| $x$ | $p_X(x)$ | $(x-\mu)^2$ | $(x-\mu)^2 p_X(x)$ |
|---|---|---|---|
| 0 | 0.03 | $(0-4.59)^2 = 21.0681$ | $21.0681 \cdot 0.03 = 0.6320$ |
| 1 | 0.05 | $(1-4.59)^2 = 12.8881$ | $12.8881 \cdot 0.05 = 0.6444$ |
| 2 | 0.07 | $(2-4.59)^2 = 6.7081$ | $6.7081 \cdot 0.07 = 0.4696$ |
| 3 | 0.18 | $(3-4.59)^2 = 2.5281$ | $2.5281 \cdot 0.18 = 0.4551$ |
| 4 | 0.20 | $(4-4.59)^2 = 0.3481$ | $0.3481 \cdot 0.20 = 0.0696$ |
| 5 | 0.15 | $(5-4.59)^2 = 0.1681$ | $0.1681 \cdot 0.15 = 0.0252$ |
| 6 | 0.15 | $(6-4.59)^2 = 2.0161$ | $2.0161 \cdot 0.15 = 0.3024$ |
| 7 | 0.08 | $(7-4.59)^2 = 5.8081$ | $5.8081 \cdot 0.08 = 0.4646$ |
| 8 | 0.02 | $(8-4.59)^2 = 11.6281$ | $11.6281 \cdot 0.02 = 0.2326$ |
| 9 | 0.01 | $(9-4.59)^2 = 19.4481$ | $19.4481 \cdot 0.01 = 0.1945$ |
| 10 | 0.06 | $(10-4.59)^2 = 29.2681$ | $29.2681 \cdot 0.06 = 1.7561$ |
| **Total** | **1.00** | | **5.2419** |
: Tabela de cálculo da variância de $X$ {.striped .hover}
:::
A variância representa a média dos desvios quadrados dos valores de $X$ em relação à sua média, e o desvio padrão representa a média dos desvios (agora na unidade original de $X$) dos valores de $X$ em relação à sua média.
$$
\begin{aligned}
DP(X) = \sigma &= \sqrt{V(X)} \\
&= \sqrt{5.2419} = 2.2895
\end{aligned}
$$
Ou seja, em média, o número de livros vendidos no período se desvia em média $2.2895$ unidades da própria média.
A variância e o desvio padrão para $g(X)$ são:
$$
\begin{aligned}
V(g(X)) = \sigma^2 &= \sum_x{(g(x)-\mu)^2 p_X(x)} \\
&= \sum_x{(g(x)-59)^2 p_X(x)} = 52419
\end{aligned}
$$
$$
\begin{aligned}
DP(g(X)) = \sigma &= \sqrt{V(g(X))} \\
&= \sqrt{52419} = 228.952
\end{aligned}
$$
Ou seja, em média, a receita líquida no período se desvia em média R$ $228.95$ da própria média.
:::