🇳🇱 Waarom Python beter is dan Excel om big data te verwerken


Temps de lecture : 4 minutes
Share Button
Pour le big data, Python fait la loi

Excel is de meest gebruikte software door bedrijven om gegevens te verwerken en te presenteren. Toch bereikt dit zijn grenzen zodra men grote hoeveelheden informatie wil verwerken. Om de technische grenzen te overschrijden, bestaat er een doelmatige en voor iedereen toegankelijke oplossing: Python. Als senior data scientist en ORSYS-trainer toont Audrey Quessada Vial* de superioriteit aan van Python voor het analyseren van gegevens.

Sinds 2010 zijn data het nieuwe zwarte goud van bedrijven geworden. Big data, digitale transformatie en de ontwikkeling van kunstmatige intelligentie zijn game changers. Hoe kunnen we data efficiënt gebruiken?

Uiteraard staat Excel bovenaan de oplossingen. Hij is wijdverbreid en gemakkelijk te gebruiken en blijft onmisbaar. Maar zodra men gebruik wil maken van big data, boven de 1 miljoen inputs, stuit men op de technische beperkingen ervan. De spreadsheet legt zijn wapens neer bij meer dan 1 miljoen regels (1.048.576 regels om precies te zijn, ofwel 220).

Veel datareeksen (datasets) overschrijden deze waarde. Dat is het geval voor de geschiedenis van beurskoersen (809 MB in zip-formaat voor Amerikaanse aandelen), de database Sirene van Franse bedrijven van de Insee (1,3 GB), de nationale database van de gebouwen van het Centre scientifique et technique du bâtiment (5,3 GB) of de database van de Franse merken van het INPI (15 GB).

Om deze beperkingen op te heffen moet men Excel verlaten en gebruik maken van Python. Waarom Python? Deze taal onderscheidt zich van andere oplossingen voor het verwerken van big data (R, Julia, MATLAB, Scala, SQL…) door zijn eenvoudige syntax, zijn geheugenbeheer en vooral zijn grote aantal bibliotheken (of library’s).

Python richt zich dus zowel tot data scientists als tot niet-specialisten zoals financiële en marketingprofessionals en meer in het algemeen tot alle geavanceerde gebruikers van Excel.

De meestal open source-bibliotheken van Python maken het mogelijk om de capaciteit op tal van gebieden uit te breiden. Voor data heet de meest toonaangevende bibliotheek Pandas.

Python en Pandas, uw bondgenoten voor data

Het gebruik van Python en Pandas is relatief eenvoudig, snel en geschikt voor beginners in programmering. Geen wonder dat Python in 2022 de meest gebruikte taal ter wereld is, voor Java en C/C++, volgens de populariteitsindex PYPL. Python-vaardigheden zijn overigens erg gewild onder bedrijven: het is de tweede meest gevraagde taal in vacatures na JavaScript, blijkt uit onderzoek van de Californische universiteit van Berkeley.

Pandas komt niet van de naam van het sympathieke dier, symbool van China, maar van Panel Data, een veelgebruikte datastructuur die gebruikt wordt in econometrie, het statistische onderzoek van economische data.

De kracht van Pandas zit hem in de snelheid van de gegevensverwerking. Ze kan makkelijk een miljoen inputs verwerken in enkele seconden.

Het is flexibel en dient zowel voor de eenvoudige visualisatie van gegevens, als voor het creëren van verschillende weergaven van de dataset door middel van dynamische kruistabellen. Het is ook mogelijk om gegevens per categorie te groeperen en te aggregeren van de eenvoudigste (bijvoorbeeld gecumuleerde of gemiddelde bedragen) tot de meest complexe. Bovendien kan men met één coderegel zijn bestand openen en vervolgens aan de gegevens werken. Het is zelfs mogelijk om SQL-queries uit te voeren met Pandas.

Een ander voordeel is dat Pandas een indrukwekkende lijst van bestandsformaten accepteert: CSV, XLSX, SQL, Apache Parquet, HDF5, JSON… en nog veel meer.

Samengevat zijn de belangrijkste voordelen van Pandas ten opzichte van Excel:

  • beheer van miljoenen regels
  • snelheid
  • automatisering van taken: met Excel is deze automatisering beperkt bij gebruik van VBA of macro’s
  • reporting via het Jupyter Notebook-platform om de gegevens weer te geven
  • multi-platform compatibiliteit: je kan zowel onder macOS als onder Windows werken.
  • Van Excel overgaan naar Python en Pandas
  • Met wat kennis van Python is het gemakkelijk om over te stappen van Microsoft Excel naar Pandas. De meeste taken die in Excel worden uitgevoerd, kunnen ook met Pandas worden uitgevoerd.

Van Excel overgaan naar Python en Pandas

Met wat kennis van Python is het gemakkelijk om over te stappen van Microsoft Excel naar Pandas. De meeste taken die in Excel worden uitgevoerd, kunnen ook met Pandas worden uitgevoerd.

We zullen een voorbeeld nemen om het gemak en de kracht van Python en Pandas te illustreren. Dit is een verzameling gegevens van de Wereldbank die je kunt vinden op de website Kaggle. Dit bestand heeft een grootte van 574,3 MB en bevat bijna 6 miljoen inputs. Het bevat een aantal economische en sociale indicatoren per land en per jaar.

Het duurt minder dan 3 seconden om dit bestand te lezen met een enkele coderegel.

We gaan nu de eerste vijf regels bekijken om te zien waarmee deze gegevens overeenstemmen. Ook hier volstaat één coderegel:

Het is ook mogelijk om de belangrijkste statistische indicatoren voor elke kolom te verzamelen:

Het filteren van de gegevens is eenvoudig. In het volgende voorbeeld gaan we de gegevens filteren om enkel het bbp per inwoner als indicator te behouden:

Wat als we het gemiddelde en maximale bbp per hoofd van de bevolking over alle jaren per land berekenen? Nogmaals, er is maar één coderegel met Pandas nodig:

Deze enkele voorbeelden illustreren de kracht van Pandas. Er zijn nog veel meer mogelijkheden die binnen handbereik liggen.

We kunnen in een tabel samenvatten waarvoor we beter Python en Pandas kunnen gebruiken in plaats van Excel.

Comparaison Excel et Python Pandas selon les usages

Pandas is een uiterst krachtige bibliotheek om aan data te werken. Het heeft veel voordelen ten opzichte van Excel en maakt het mogelijk om veel verder te gaan in de gegevensverwerking en de automatisering van taken. Zijn flexibiliteit en snelheid maken het tot een onmisbare tool voor data science.

Toch is Pandas niet de enige bibliotheek van Python die voordelen biedt bij het verwerken van data. De weergavetools geven inzicht in de interacties tussen de parameters. Heel wat bibliotheken bieden weergavetools: geovisualisatie met Folium, interactieve visualisatie met Plotly, creatie van interactieve dashboards met Dash, visualisatie van grote data met Holoviews, er is genoeg keuze.

Samenvattend kan gesteld worden dat Python veel voordelen biedt. Dankzij zijn vrij toegankelijke bibliotheken overklast het Excel om big data (al dan niet gestructureerd) te verwerken en weer te geven. Dankzij onze opleidingen kunt u met deze krachtige tool snel aan de slag.

Onze beste opleidingen over big data met Python en Pandas

Bekijk al onze opleidingen in: Softwareontwikkeling

Share Button

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée.