DataScienceInPractice

Chapter 4: Analyzing the Data

After we read the csv file it is time to analyze the data.

So we will keep using the multas dataset to this example.

Use the command summary(multas) and it will give us a lot of important information about our "multas" dataset.


summary(multas)
 CALIFICACION          LUGAR                MES         ANIO           HORA          IMP_BOL         DESCUENTO        
 Length:186619      Length:186619      Min.   :4   Min.   :2015   Min.   : 0.00   Min.   :  30.00   Length:186619     
 Class :character   Class :character   1st Qu.:4   1st Qu.:2015   1st Qu.:11.07   1st Qu.:  90.00   Class :character  
 Mode  :character   Mode  :character   Median :4   Median :2015   Median :14.01   Median :  90.00   Mode  :character  
                                       Mean   :4   Mean   :2015   Mean   :14.06   Mean   :  99.04                     
                                       3rd Qu.:4   3rd Qu.:2015   3rd Qu.:17.55   3rd Qu.: 100.00                     
                                       Max.   :4   Max.   :2015   Max.   :23.59   Max.   :1000.00                     

     PUNTOS       DENUNCIANTE         HECHO.BOL           VEL_LIMITE      VEL_CIRCULA    
 Min.   :0.0000   Length:186619      Length:186619      Min.   :30.00    Min.   : 41.0   
 1st Qu.:0.0000   Class :character   Class :character   1st Qu.:70.00    1st Qu.: 75.0   
 Median :0.0000   Mode  :character   Mode  :character   Median :70.00    Median : 82.0   
 Mean   :0.1397                                         Mean   :72.55    Mean   : 85.3   
 3rd Qu.:0.0000                                         3rd Qu.:90.00    3rd Qu.: 96.0   
 Max.   :6.0000                                         Max.   :90.00    Max.   :156.0   
                                                        NA's   :153574   NA's   :153574

Using the head and tail command to analyze the dataset


> head(multas)
  CALIFICACION                                    LUGAR MES ANIO  HORA IMP_BOL DESCUENTO PUNTOS          DENUNCIANTE
1   GRAVE      M 30 KM 29 CALZADA 1                       4 2015  9.45     200        SI      0 POLICIA MUNICIPAL   
2   LEVE       AV GLORIETAS-RDA SUR                       4 2015 13.35     100        SI      0 POLICIA MUNICIPAL   
3   GRAVE      PO ALABARDEROS 24                          4 2015 13.50     200        SI      0 POLICIA MUNICIPAL   
4   GRAVE      KM 12, M-30 CALZADA 1                      4 2015 16.35     100        SI      0 POLICIA MUNICIPAL   
5   LEVE       AV PORTUGAL 161                            4 2015 12.05      90        SI      0 POLICIA MUNICIPAL   
6   GRAVE      LOPEZ DE HOYOS-MARIA DE MOLINA             4 2015 13.05     200        SI      4 POLICIA MUNICIPAL   
                                                                                                                               HECHO.BOL
1          CONDUCCION NEGLIGENTE: CIRCULAR POR ENCIMA DE VELOCIDAD REBASANDO VHOS                                                       
2          CIRCULAR POR ZONA RESERVADA AL USO EXCLUSIVO DE PEATONES.                                                                    
3       ESTACIONAR EN ZONA SE\xd1ALIZADA PARA USO EXCLUSIVO DE PERSONAS CON MOVILIDAD REDUCIDA.                                         
4 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS EN 60 km/h O M\xc1S.                                                            
5          ESTACIONAR SOBRE LA ACERA.                                                                                                   
6       REBASAR UN SEM\xc1FORO EN FASE ROJA.                                                                                            
  VEL_LIMITE VEL_CIRCULA
1         NA          NA
2         NA          NA
3         NA          NA
4         80          84
5         NA          NA
6         NA          NA
> tail(multas)
       CALIFICACION                                    LUGAR MES ANIO  HORA IMP_BOL DESCUENTO PUNTOS          DENUNCIANTE
186614   GRAVE      N139 PO SANTA MARIA CABE                   4 2015 12.55     300        SI      2 POLICIA MUNICIPAL   
186615   GRAVE      N139 PO SANTA MARIA CABE                   4 2015 12.56     300        SI      2 POLICIA MUNICIPAL   
186616   GRAVE      N139 PO SANTA MARIA CABE                   4 2015 12.56     300        SI      2 POLICIA MUNICIPAL   
186617   GRAVE      N139 PO SANTA MARIA CABE                   4 2015 12.56     300        SI      2 POLICIA MUNICIPAL   
186618   GRAVE      N139 PO SANTA MARIA CABE                   4 2015 12.56     400        SI      4 POLICIA MUNICIPAL   
186619   GRAVE      N139 PO SANTA MARIA CABE                   4 2015 12.57     300        SI      2 POLICIA MUNICIPAL   
                                                                                                                                 HECHO.BOL
186614 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS HASTA 50km/h.                                                                
186615 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS HASTA 50km/h.                                                                
186616 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS HASTA 50km/h.                                                                
186617 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS HASTA 50km/h.                                                                
186618 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS HASTA 50km/h.                                                                
186619 SOBREPASAR LA VELOCIDADM\xc1XIMA EN V\xcdAS LIMITADAS HASTA 50km/h.                                                                
       VEL_LIMITE VEL_CIRCULA
186614         50          75
186615         50          79
186616         50          77
186617         50          73
186618         50          87
186619         50          72
>

Print a specific column from a dataset

To print just a value you have to put $ like dataset$column

Like:

multas$PUNTOS

Mean

mean(multas$IMP_BOL)

Output [1] 99.0419

Median

median(multas$IMP_BOL)

Output: [1] 90

Min

min(multas$IMP_BOL)

Output: [1] 30

Max

max(multas$IMP_BOL)

Output: [1] 1000

Others commands that I have to put here


median(multas$IMP_BOL)

quantile(multas$IMP_BOL)

sd(multas$IMP_BOL)

var(multas$IMP_BOL)

#install.packages("modeest")
library(modeest)
# moda
mfv(multas$IMP_BOL) 

#install.packages("fmsb")
library(fmsb)
percentile(multas$IMP_BOL)

fivenum(multas$IMP_BOL)


sort(multas$IMP_BOL)

order(multas$IMP_BOL)

sum(multas$IMP_BOL)

cumsum(multas$IMP_BOL)

length(multas$IMP_BOL)

log(multas$IMP_BOL)

floor(multas$IMP_BOL)

ceiling(multas$IMP_BOL)

trunc(multas$IMP_BOL)

round(multas$IMP_BOL, digits=2)

signif(multas$IMP_BOL, digits=6)

range(multas$IMP_BOL)

See the link: http://www.cientec.or.cr/matematica/2012/ponenciasVIII/Jose-Andrey-Zamora.pdf

http://cran.r-project.org/doc/contrib/Risk-Cartas-sobre-Estadistica.pdf

http://nubededatos.blogspot.com.es/2015/01/calcular-la-moda-en-r-usando-el-paquete.html

https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)