1 Pacotes

  • data.table
  • googledrive
  • ggplot2
  • readxl
  • writexl
  • skimr
  • moments
  • dplyr
  • GGally
  • rstatix
  • rmarkdown
  • car
  • knitr
  • here
  • tidyr

1.1 Setup do projeto

#setup principal
knitr::opts_chunk$set(
  echo = TRUE,       # mostra o código
  warning = FALSE,   # oculta 
  message = FALSE    # oculta mensagens (ex: carregamento de pacotes)
)

2 Carregar a base de dados

Instale o seu google drive no seu computador.

o Google Drive aparecerá no Explorador de Arquivos como uma unidade de disco, e no meu caso (Meu Computador “G:”)

Se estiver usando o “.Rmd” tenha em mente que o arquivo de dados deve estar salvo na mesma raiz do seu projeto “.Rmd”.

2.2 Conhecendo a base de forma rápida e eficiente

Data summary
Name dados
Number of rows 1213
Number of columns 5
_______________________
Column type frequency:
character 2
numeric 3
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Idade_imovel 0 1 14 19 0 3 0
Região 0 1 3 5 0 2 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Id_Imovel 0 1 607.00 350.31 1.00 304.00 607.00 910.00 1213.00 ▇▇▇▇▇
Distancia_metro_Km 0 1 1.60 0.50 0.63 1.25 1.55 1.95 2.60 ▃▆▇▆▃
Mil_reais_m2 0 1 8.52 3.28 1.52 5.74 8.32 11.09 15.66 ▃▇▇▆▃

2.2.1 Seleciona apenas colunas de texto e avalia as categorias

## # A tibble: 5 × 3
##   variavel     categoria           contagem
##   <chr>        <chr>                  <int>
## 1 Idade_imovel 2. 10 a 25 anos          516
## 2 Idade_imovel 3. Acima de 25 anos      350
## 3 Idade_imovel 1. Até 10 anos           347
## 4 Região       Sul                      757
## 5 Região       Norte                    456

3 Estudo de caso - Analise dos Imóveis

Na base de dados disponibilizada são fornecidas informações sobre: o valor do imóvel (R$ mil) por m 2 , a distância para estação de metrô (km), a idade e a região.

3.1 Distribuição de frequencias das variáveis qualitativas

3.1.1 Variável Idade_imovel

##                     Frequência Percentual
## 1. Até 10 anos             347       28.6
## 2. 10 a 25 anos            516       42.5
## 3. Acima de 25 anos        350       28.9

3.1.2 Variável Região.

##       Frequência Percentual
## Norte        456       37.6
## Sul          757       62.4

3.2 Distribuição de frequencias conjunta entre as variaveis qualitativas: Idade_imovel e Regiao (quali x quali).

##                      
##                       Norte Sul
##   1. Até 10 anos        169 178
##   2. 10 a 25 anos       162 354
##   3. Acima de 25 anos   125 225

Os imóveis mais novos (até 10 anos) estão dsitribuidos entre as duas regiões quase que proporcionalmente. Enquanto os imóveis com mais de 10 anos se concetram em sua maioria na Região Sul.

4 Medidas de posição e resumo de dados: distância ao metrô

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.627   1.253   1.553   1.598   1.946   2.599

O imóvel mais próximo do metrô, está em uma distância de 627 metros.

Enquanto que o imóvel mais distante do metrô, está em uma distância de 2,599 Km.

Em média os imóveis tem uma distância aproximada de 1,6 Km do metrô.

Até 25% dos imóveis estão em uma distância de até 1,253 Km do metrô e 75% dos imóveis estão em uma distância de até 1,946 Km do metrô.

Pelo menos 50% dos imôveis estão até 1,553 Km de distância do metrô e a outra parte estão acima.

Dentro do intervalo de distância acima de 1,253 Km até 1,946 Km, estão compreendidos 50% das quantidade de imóveis.

##       1%      99% 
## 0.650786 2.581738

1% dos imóveis estão distantes em até 650 metros do metrô e 99% dos imóveis estão distantes do metrô em até 2,582 Km do metrô.

Isso indica que 98% dos dados estão dentro neste intervalo, a partir de 650 ate 2,582KM de distância.

Ou seja, não há valores muito fora da curva (outliers extremos), já que o 1% e 99% estão próximos do valor mínimo e máximo da distribuição dos dados.

## [1] 0.07681239

O Skewness - Com assimetria de 0,077 próximo de zero, demonstra que a distribuição é quase simétrica e isto em termos práticos demonstra que os dados de Distancia_metro_Km têm uma distribuição bastante equilibrada, sem grandes distorções.

4.1 Histograma (Distancia_metro_Km)

4.1.1 Interpretação Outliers

O limite superior teorico calculado foi de 2.986 e o limite inferior teorico foi 0.214, compreendem os valores minimos e máximo do dados reais, portanto não temos outrliers.

Enquanto que o intervalo interquartil é de 0.693

4.1.2 BOXPLOT (Distancia_metro_Km)

5 Medidas de posição e resumo de dados: imóvel (R$ mil) por m2

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.520   5.740   8.320   8.518  11.090  15.660

O m2 mais baixo, tem o valor de 1,500/m2 e o m2 mais caro é de 15.660.

O m2 médio é de 8.518.

##      1%     99% 
##  2.8872 14.7764

1% dos imóveis tem o m2 até 2.8872 e 99% até 14.774.

Ou seja, não há valores muito fora da curva (outliers extremos).

O Skewness - Com assimetria de 0.135 próximo de zero, demonstra que a distribuição é quase simétrica e isto em termos práticos demonstra que os dados de Mil_reais_m2 têm uma distribuição bastante equilibrada, sem grandes distorções.

5.1 Histograma (Mil_reais_m2)

5.1.1 Interpretação Outliers

O limite superior teorico calculado foi de 19.115 e o limite inferior teorico foi -2.285 e compreendem os valores minimos e máximo do dados reais, portanto não temos outrliers.

Enquanto que o intervalo interquartil é de 5.35

5.1.2 BOXPLOT (Mil_reais_m2)

6 Gráfico de Dispersão entre a distância do metro e o valor do m2 do imovel

Em aproximadamente 0.8 Km de distância do metrô alguns imôveis possuem o mesmo valor, tanto na Região Sul, quanto na Região Norte.

Para Imóveis com distância aproximada de 1,2 Km do metrô os valores tem maior discrepância entre as duas Regiôes.

7 Contatos

Paulo P. Consult

📊 Analista de Seguros | Projetos | Data Driven

🌐 Linkedin

📧 Email

📱 WhatsApp