Pourquoi Python est meilleur qu’Excel pour traiter des données massives


Temps de lecture : 4 minutes
Share Button
Pour le big data, Python fait la loi

Excel est le logiciel le plus utilisé par les entreprises pour traiter et présenter des données. Pour autant, il atteint ses limites dès que l’on souhaite manipuler de grandes quantités d’information. Pour dépasser ses limites techniques, il existe une solution performante et à la portée de tous : Python. Senior data scientist et formatrice ORSYS, Audrey Quessada Vial* démontre par l’exemple la supériorité de Python pour analyser des données. 

Depuis les années 2010, les données sont devenues le nouvel or noir des entreprises. Le big data, la transformation numérique et le développement de l’intelligence artificielle ont changé la donne. Comment exploiter les données de manière efficace ?

Bien entendu, Excel arrive en tête des solutions. Très répandu et facile à utiliser, il reste incontournable. Mais dès que l’on souhaite exploiter des données massives, au-delà de 1 million d’entrées, on se heurte à ses limitations techniques. Le tableur rend les armes au-delà de 1 million de lignes (1 048 576 lignes pour être précis, soit 220).

De nombreux jeux de données (datasets) dépassent cette valeur. C’est le cas des historiques de cours de bourse (809 Mo au format zip pour les actions américaines), la base Sirene des entreprises françaises de l’Insee (1,3 Go), la base nationale des bâtiments du Centre scientifique et technique du bâtiment (5,3 Go), ou la base des marques françaises de l’INPI (15 Go).

Pour lever ces limitations, il faut abandonner Excel et recourir à Python. Pourquoi Python ? Ce langage se distingue des autres solutions pour traiter des données massives (R, Julia, MATLAB, Scala, SQL…) par sa simplicité de syntaxe, sa gestion de la mémoire et surtout son nombre imposant de bibliothèques (ou librairies).

Python s’adresse donc aussi bien à des data scientists qu’à des non-spécialistes comme des professionnels de la finance, du marketing, et plus généralement à tous les utilisateurs avancés d’Excel.

Le plus souvent en open source, les bibliothèques de Python permettent d’étendre ses capacités dans de nombreux domaines. Pour les données, LA bibliothèque phare s’appelle Pandas.

Python et Pandas, vos alliés pour les données

La prise en main de Python et de Pandas est relativement simple et rapide, adaptée aux néophytes en programmation. Pas étonnant que Python soit le langage le plus utilisé au monde en 2022, devant Java et C/C++, selon l’index de popularité PYPL. Les compétences en Python sont d’ailleurs très recherchées par les entreprises : c’est le deuxième langage le plus demandé dans les annonces d’emploi après JavaScript selon une étude de l’université californienne de Berkeley.

Pandas ne vient pas du nom de l’animal sympathique, symbole de la Chine, mais de Panel Data, une structure de données largement utilisée en économétrie, l’étude statistique des données économiques.

La puissance de Pandas vient de sa rapidité à traiter des données. Elle peut facilement gérer un million d’entrées en une poignée de secondes.

Flexible, elle sert aussi bien à la visualisation basique des données, à créer des vues différentes du jeu de données grâce à des tableaux croisés dynamiques. Il est également possible de regrouper des données par catégories et d’effectuer des opérations d’agrégation des plus simples (sommes cumulées ou moyennes par exemple) aux plus complexes. De plus, en une ligne de code, on peut ouvrir son fichier et travailler ensuite sur les données. Il est même possible d’effectuer des requêtes SQL avec Pandas.

Autre atout, Pandas accepte une liste impressionnante de formats de fichiers : CSV, XLSX, SQL, Apache Parquet, HDF5, JSON… et bien d’autres encore.

Pour résumer, les avantages majeurs de Pandas par rapport à Excel sont :

  • la gestion de millions de lignes
  • la rapidité
  • l’automatisation de tâches : avec Excel, cette automatisation est limitée lorsque l’on utilise VBA ou les macros
  • le reporting en utilisant la plateforme Jupyter Notebook pour la visualisation des données
  • la compatibilité multiplateforme : on peut travailler aussi bien sous macOS que sous Windows.

Passer de Excel à Python et Pandas

Avec quelques connaissances en Python, il est aisé de passer de Microsoft Excel à Pandas. La plupart des tâches qui sont effectuées sous Excel peuvent l’être également avec Pandas.

Nous allons prendre un exemple pour illustrer la facilité et la puissance de Python et Pandas. Voici un jeu de données de la Banque mondiale que l’on peut trouver sur le site Kaggle. Ce fichier a une taille de 574,3 Mo et contient près de 6 millions d’entrées. Il regroupe un certain nombre d’indicateurs économiques et sociaux par pays et par année.

Il faut moins de 3 secondes pour lire ce fichier avec une seule ligne de code.

Nous allons maintenant visualiser les cinq premières lignes pour voir à quoi correspondent ces données. Ici encore, une seule ligne de code suffit :

Il est également possible de récupérer les principaux indicateurs statistiques associés à chaque colonne :

Pour filtrer les données, rien de plus simple. Dans l’exemple suivant, nous allons filtrer les données pour ne garder comme indicateur que le PIB par habitant :

Et si nous calculions le PIB moyen et maximal par habitant sur toutes les années par pays ? Encore une fois, une seule ligne de code avec Pandas est nécessaire :

Ces quelques exemples illustrent toute la puissance de Pandas. Ils sont loin d’être exhaustifs des possibilités qui sont à votre portée.

Nous pouvons résumer dans un tableau pour quels usages utiliser Python et Pandas au lieu d’Excel.

Comparaison Excel et Python Pandas selon les usages

Pandas est une bibliothèque extrêmement puissante pour travailler sur les données. Elle possède de nombreux avantages sur Excel et permet d’aller beaucoup plus loin dans le traitement des données et l’automatisation des tâches. Sa flexibilité et sa rapidité en font un outil indispensable pour la data science.

Malgré tout, Pandas n’est pas la seule bibliothèque de Python à présenter des avantages pour traiter les données. Les outils de visualisation permettent de comprendre les interactions entre les paramètres. De nombreuses bibliothèques proposent des outils de visualisation : géovisualisation avec Folium, visualisation interactive avec Plotly, création de tableaux de bord interactifs avec Dash, visualisation de données volumineuses avec Holoviews, ce n’est pas le choix qui manque.

Pour conclure, Python possède beaucoup d’atouts. Grâce à ses bibliothèques libres d’accès, il surclasse Excel pour traiter des données massives (structurées ou non) et les visualiser. Nos formations vous permettront de prendre rapidement en main cet outil puissant.

Bio Audrey Quessada Vial

Nos meilleures formations sur le big data avec Python et Pandas

Retrouvez toutes nos formations en Développement logiciel

Share Button

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée.