Pandas es una herramienta de código abierto, bajo licencia BSD, que da un alto desempeño y que es fácil de usar en Python, para así trabajar de forma fácil con datos estructurados como tablas, matrices y series de tiempo.

Se diseñó con la intención de analizar datos del mundo real, de forma práctica, usando el lenguaje de programación Python. Cabe señalar que Pandas puede usarse a partir de Python 3.6.1, lo que hace que las versiones anteriores del lenguaje de programación no se tomen en cuenta.

../_images/01_table_dataframe.svg
Imagen: https://pandas.pydata.org/

Este tipo de decisiones hace que los sistemas anteriores se hagan obsoletos y obligan a los programadores a actualizarse. No es tan mala idea aunque siempre pone en problemas a los codificadores al tener que instalar las nuevas herramientas.

Hay que decir, sin embargo, que antes se usaba la versión 2.0 de Python, por lo cual el cambio no es tan terrible como parece.

No más estrés con datos perdidos

Uno de los aspectos más nuevos de Pandas, que mejora el trabajo con datos que no existen o que están perdidos, es que cuenta con un nuevo valor que representa datos escalares perdidos o desconocidos.

Anteriormente, había muchas opciones para hacer esto, dependiendo del tipo de datos que se necesitaran y que dependía si el tipo era entero, real, un objeto, etcétera. Ahora Pandas permite un indicador de datos «perdidos» que puede ser usado consistentemente con todos los tipos de datos, incluso fechas, booleanos y tipos de datos como strings.

Datos dedicados a strings

Pandas ofrece StringDType, una extensión dedicada para los datos tipo string. Usualmente, las cadenas de caracteres se guardaban en objetos que eran arreglos NumPy.

Imagen: Pandas

Los desarrolladores dicen que la extensión «string»resuelve algunos problemas con los arreglos NumPy, de forma que se evita guardar accidentalmente una mezcla de cadenas con no-cadenas en un arreglo de objetos StringArray, pues aquí sólo pueden guardarse strings (cadenas de caracteres).

Obviamente este tipo de dificultades las encontraban aquellos que analizaban datos, Pandas 1.0 parece ser una nueva versión que resuelve muchas de los problemas típicos que se enfrentaban antes. Si usted analiza datos (usando Python), créame que vale la pena probar este nuevo sistema.