Introdução a Regressão Linear
Introdução à Regressão Linear
A regressão linear é uma das técnicas estatísticas mais simples e amplamente utilizadas em Data Science, especialmente útil para prever um valor quantitativo. Os modelos de regressão linear tentam prever uma variável dependente (também chamada de variável de resposta) com base em uma ou mais variáveis independentes (ou preditores), assumindo que a relação entre as variáveis é linear.
Forma Matemática da Regressão Linear
Regressão Linear Simples
No caso mais simples, com uma única variável preditora, a relação entre a variável dependente \( y \) e a variável independente \( x \) pode ser expressa como:
$$ y = \beta_0 + \beta_1 x + \epsilon $$Onde:
- \( \beta_0 \) é o intercepto,
- \( \beta_1 \) é o coeficiente da variável independente \( x \),
- \( \epsilon \) é o termo de erro, que capta todas as outras influências sobre \( y \) que não são explicadas por \( x \).
Regressão Linear Múltipla
Quando há mais de uma variável independente, a equação se expande para:
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon $$Aqui, cada \( x_i \) representa uma variável independente diferente, e \( \beta_i \) são os coeficientes correspondentes.
Aplicações da Regressão Linear
- Economia: Previsão de indicadores econômicos como PIB, inflação, etc.
- Biologia: Modelagem de crescimento populacional ou relações dose-resposta.
- Marketing: Previsão de vendas baseada em gastos com publicidade.
- Finanças: Estimativa de riscos ou retornos esperados de ativos.
Métricas de Avaliação
Para avaliar o desempenho de um modelo de regressão linear, as métricas mais comuns são:
- Erro Quadrático Médio (MSE):
onde \( \hat{y}_i \) é o valor predito e \( y_i \) é o valor real.
- Raiz do Erro Quadrático Médio (RMSE):
fornece uma medida da magnitude do erro em termos das unidades originais da variável de saída.
- Coeficiente de Determinação \( R^2 \):
Onde:
- \( y_i \) são os valores observados,
- \( f_i \) são os valores previstos pelo modelo,
- \( \bar{y} \) é a média dos valores observados.
O \( R^2 \) mede a proporção da variância na variável dependente que é previsível a partir das variáveis independentes.
Exemplo Prático em Python
Para ilustrar a regressão linear em Python, vamos usar a biblioteca scikit-learn
para prever preços de casas com base
em características como área, número de quartos, etc.
|
|