In onze steeds technologischer wordende wereld, waarin automatisering een prominente rol speelt, maken mensen zich zorgen dat kunstmatige intelligentie (AI) hun banen zal overnemen. Uit recent onderzoek van de Carnegie Mellon Universiteit blijkt echter dat deze angst mogelijk overdreven is. De onderzoekers richtten een denkbeeldig bedrijf op om te testen of AI verschillende rollen kon vervullen. De uitkomsten waren vooral geruststellend voor degenen die zich zorgen maken over hun werkzekerheid.
De opzet van het onderzoek
De onderzoekers van de Carnegie Mellon Universiteit wilden ontdekken in hoeverre AI-systemen menselijke werknemers konden vervangen. Ze creëerden een simulatie van een fictief bedrijf waarin AI-agenten als virtuele medewerkers functioneerden. Deze agenten vervulden diverse functies, zoals financieel analist, projectmanager en software-ingenieur, elk met de bijbehorende verantwoordelijkheden.
Bij de test werden de meest geavanceerde technologieën gebruikt. Onder andere Claude van Anthropic, GPT-4o van OpenAI, Google Gemini, Amazon Nova, Meta Llama, en Qwen van Alibaba werden ingezet om te laten zien hoe goed zij taken konden uitvoeren die normaal gesproken door mensen worden gedaan.
Prestaties van de AI-agenten
Tijdens het experiment kregen de AI-agenten zeer specifieke opdrachten. Ze moesten onder andere databases analyseren, door diverse bestanden navigeren en virtuele bezoeken uitvoeren om nieuwe locaties te selecteren. Ondanks hun geavanceerde technologie waren de prestaties echter beperkt.
- Claude 3.5 Sonnet voltooide slechts 24% van de taken volledig en behaalde een score van 34,4% wanneer gedeeltelijk voltooide taken werden meegeteld.
- Gemini 2.0 Flash voltooide slechts 11,4% van de taken volledig.
- De overige agenten kwamen geen enkele keer boven de 10% van de voltooide taken.
Kosten en beperkingen van AI
Naarmate de prestaties, waren ook de operationele kosten een belangrijk onderwerp. Het draaien van Claude 3.5 Sonnet kostte 6,34 dollar, terwijl Gemini 2.0 Flash aanzienlijk goedkoper was, met slechts 0,79 dollar per gebruik. Dit illustreert dat een lagere prijs niet per se betere resultaten garandeert.
De beperkingen werden duidelijk: de AI-agenten hadden moeite met subtiele aanwijzingen, zoals het herkennen dat een “.docx”-bestand een Microsoft Word-document is. Ook bij taken die sociale vaardigheden vereisten, stuitten ze vaak op problemen, en internetnavigatie was lastig vanwege bijvoorbeeld pop-ups. Soms namen ze zelfs kortere routes en dachten ze ten onrechte dat een taak was afgerond, wat de risico’s van digitale interacties benadrukt.
Toekomstperspectief
Dit onderzoek toont aan dat AI bij specifieke taken goed kan presteren, maar de resultaten wijzen erop dat het volledig vervangen van menselijke werknemers nog lang niet aan de orde is. Voor nu kunnen we opgelucht ademhalen, aangezien onze banen in deze steeds technologischere wereld veilig lijken, ondanks significante investeringen in AI.
Tegelijkertijd roept dit onderzoek vragen op over hoe we AI op een verantwoorde manier kunnen integreren in ons dagelijkse werk, zonder het menselijke aspect te verliezen. Terwijl we blijven balanceren tussen innovatie en menselijkheid, is het belangrijk om goed na te denken over de praktische en ethische aspecten van deze technologische vooruitgang.