shiny_r

La Ciencia de datos (Data Science) y el Analytics están en boga. Ya lo hemos comentado en este blog en varias ocasiones. Por tanto, no es necesario comentar la importancia del análisis de datos en el mundo actual. Tampoco hace falta aclarar que ArcGis y Qgis son las dos herramientas más potentes y usadas en la actualidad para el análisis de datos geoespaciales. Sin embargo, creo que puede ser interesante conocer la existencia de otras herramientas que pueden complementar, sin demasiado esfuerzo, a las dos anteriores.

Dentro del mundo del análisis de datos R y Python se están posicionando como los lenguajes de programación con más recorrido. Las razones son muy sencillas: no son tan difíciles de aprender como otros lenguajes (véase Java o C++) y disponen de librerías especializadas de estadística avanzada. ¿Por qué he elegido R?. Es más sencillo que Python para no programadores y dispone de unas librerías GIS realmente potentes.

Voy a describir algunas de las posibilidades que ofrece R y cuándo se puede echar mano de sus recursos:

 

  1. Lectura y escritura de los datos

Los datos pasan a almacenarse en variables (es decir, en memoria) lo que hace que sea muy flexible y rápido:

* R es capaz de conectarse a cualquiera de las bases de datos más utilizadas hoy día.

* Mediante librerías especializadas en GIS se pueden leer y escribir en disco archivos en modo shapefile, raster GIF, GPX, etc.

* Y, por supuesto, puede leer y escribir en disco cualquier archivo de texto, CSV u hoja de Excel

 

  1. Preparación y manejo de datasets.

Una vez realizada la lectura con R se puede realizar cualquier tipo de ajuste:

* Creación de campos/columnas nuevas a partir de ya existentes

* Gestión de celdas con missing values

* Concatenación y unión de tablas

* Selección de subsets atendiendo a las condiciones que queramos.

* etc.

  1. Estadística descriptiva multivariable

R es el lenguaje de programación más versátil dentro del mundo de la estadística. Parámetros como la media, mediana, cuartiles, etc. se pueden calcular con una sola línea de código para todas las variables del dataset.

Además, ofrece muchas posibilidades para el análisis visual. Véase la siguiente matriz de correlación:

shiny_r2

 

  1. Machine Learning

El uso de técnicas de aprendizaje automático nos puede ayudar en dos sentidos:

* Comprender mejor los datos que disponemos:

  1. a) estudiando sus interrelaciones mediante modelos de regresión
  2. b) buscando patrones con algoritmos de clustering

* Realizar estimaciones para nuestras variables más importantes mediante árboles de decisión o máquinas de vector soporte (SVM en inglés)

  1. Aplicaciones Interactivas

Gracias a la herramienta Shiny creada por Rstudio se pueden crear aplicaciones web interactivas con botones, sliders o desplegables.

Puedes ver la galería de ejemplos en el siguiente link (https://shiny.rstudio.com/gallery/)

 

  1. Series temporales

 

Se puede realizar todo tipo de análisis temporal. De hecho, R es utilizado en el mundo financiero y del trading para sus análisis y predicciones.

En el curso GIS-DataScience verás cómo se puede leer un shapefile en R, analizar sus variables estadística y visualmente, aplicarle algoritmos de machine learning, combinarlos con raster y crear una aplicación interactiva que podrás compartir vía web.