Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Blick auf das Hamburger Rathaus

IT-Planungsrat: Neuer Bericht zur Datennutzung

[19.02.2025] Beim Jahresauftakttreffen des IT-Planungsrats zum Schwerpunktthema Datennutzung diskutierten Vertreterinnen und Vertreter aus Bund, Ländern und Kommunen aktuelle Fortschritte und kommende Projekte. Der jetzt vorliegende Jahresbericht bietet dazu einen detaillierten Überblick. mehr...

Ein unscharf dargestellter Mann mit weißem Hemd und grünlicher Krawatte hält zwei Karten vor sich. Auf der linken steht das Wort Procurement, auf der rechten eine symbolische Illustration für "Beschaffung".

OSBA: Beschaffung von Open Source Software

[14.02.2025] Bei öffentlichen Ausschreibungen zählt meist der niedrigste Preis. Im Fall von Open Source Software ist dies oftmals zum Schaden des Auftraggebers: Sicherheits- und Wartungsprobleme drohen, wenn Anbieter zu knapp kalkulieren. Die OSBA hat ein Paper zur nachhaltig erfolgreichen Beschaffung veröffentlicht. mehr...

Sachsen-Anhalt: Ideen für digitale Verwaltung gesucht

[12.02.2025] Das Land Sachsen-Anhalt sucht erneut innovative Ideen für die digitale Verwaltung. Gefragt sind digitale Konzepte und Modelle für die vielfältigen Aufgaben der öffentlichen Verwaltung. Bewerbungen sind bis 14. März möglich. mehr...

Bayern: Hardware für den Freistaat

[10.02.2025] Bayern investiert über 40 Millionen Euro in moderne IT-Ausstattung für die Verwaltung. Rund 80.000 energieeffiziente Geräte sollen Arbeitsplätze in staatlichen Einrichtungen nachhaltig zukunftsfähig machen. Die Auswahl der Anbieter erfolgte nach strengen Umwelt- und Nachhaltigkeitskriterien. mehr...

OZG: Alle Meilensteine beim „Aufenthalt“ erreicht

[05.02.2025] Das maßgeblich vom Land Brandenburg vorangetriebene OZG-Projekt „Aufenthalt“ hat alle Vorgaben des OZG-Verwaltungsabkommens erfüllt. Inzwischen nutzen über 270 Ausländerbehörden die digitalen Dienste, weitere 170 befinden sich im Roll-out. Die Weiterentwicklung läuft kontinuierlich. mehr...

Estland: Verwaltung ist 100 Prozent digital

[31.01.2025] In Estland sind alle staatlichen Dienstleistungen online verfügbar. Selbst sensible Verfahren wie die Scheidung können digital abgewickelt werden – und werden gut angenommen. Mit einer Kampagne präsentiert das Land seine digitalen Fortschritte der internationalen Öffentlichkeit. mehr...

Screenshot openCode: Vornehmlich blau gestaltete Seite mit einem aufgeklapptem Navigationspunkt

ZenDiS: Relaunch für openCode

[20.01.2025] Das Zentrum für Digitale Souveränität (ZenDiS) hat die Open-Source-Plattform openCoDE umfassend überarbeitet. Mit dem Relaunch werden Projekte leichter auffindbar, Qualitätskriterien von Softwareprojekten direkt sichtbar, zudem ist die Plattform nun barrierefreier gestaltet. mehr...

BVA: Neue Lösung für Registrierung und Identitätsprüfung

[17.01.2025] Das Bundesverwaltungsamt stellt mit RegIWeb ein neues digitales Werkzeug zur Registrierung und Identitätsprüfung von Geflüchteten bereit. Die medienbruchfreie Erfassung biometrischer und biografischer Daten soll vor allem kleinen und mittleren Behörden effizientere Abläufe ermöglichen. mehr...

115: Behördennummer für Brandenburg

[14.01.2025] Brandenburg schließt sich dem 115-Verbund an: Die Behördennummer bietet über 2,5 Millionen Bürgerinnen und Bürgern sowie Unternehmen Zugang zu Verwaltungsinformationen – zunächst in der Basisversion. Ein Ausbau ist geplant. mehr...

Eine Reihe von Flaggenmasten mit EU-Flaggen vor einer modernen Fassade.

EU: Milliarden für OZG-Meilenstein

[07.01.2025] Die EU-Kommission zahlt Deutschland Milliarden an Fördermitteln – unter anderem für eine erfolgreiche Etappe in der OZG-Umsetzung. Die Mittel, die Deutschland jetzt erhält, stammen aus einem Fond, den die Europäische Union anlässlich der Pandemie aufgelegt hatte. mehr...

Das Bild ist ein Screenshot einer Info-Seite zum digitalen Bauantrag Bayern.

Bayern: Digitaler Bauantrag auf dem Vormarsch

[07.01.2025] Immer mehr Bauaufsichtsbehörden in Bayern setzen auf den digitalen Bauantrag. Seit Januar 2025 bieten 13 weitere Behörden diesen Service an. Bauherren und Planer profitieren von schnelleren und einfacheren Verfahren. mehr...

Winterliche Landschaft in Nordschweden

In eigener Sache: Wir machen Winterpause

[23.12.2024] Wir wünschen Ihnen ein frohes Weihnachtsfest, erholsame Feiertage und einen guten Start ins neue Jahr. Aktuelle Meldungen gibt es hier wieder ab dem 6. Januar 2025. mehr...

Ein bärtiger Mann im blauen Anzug mit Mikro auf einer Bühne, hinter ihm die Schrift "eGovernment Monitor".

Initiative D21: Vertiefte Zusammenarbeit mit FITKO

[16.12.2024] Die FITKO ist neues Fördermitglied der Initiative D21. Gemeinsam wollen die Organisationen die bürgerorientierte Verwaltungsdigitalisierung voranbringen. Die Kooperation soll technologische Innovationen und die föderale Umsetzung stärken. mehr...

Das Bild zeigt Bayerns Digitalminister Fabian Mehring.

GovTech Campus: Fabian Mehring neu im Präsidium

[13.12.2024] Der bayrische Staatsminister und Landes-CIO Fabian Mehring wurde in Berlin einstimmig in das neue Präsidium des GovTech Campus Deutschland gewählt. Gemeinsam mit Bund, Ländern und Kommunen will er den Ausbau digitaler Verwaltungsinnovationen steuern und dabei für mehr Tempo sorgen. mehr...

Nordrhein-Westfalen: Workout macht fit für BIM

[11.12.2024] Um die Kommunen des Landes fit zu machen für das digitale Bauen und Planen, hat das nordrhein-westfälische Ministerium für Heimat, Kommunales, Bau und Digitalisierung die Schulungsreihe „Kommunal.BIMsprint NRW“ aufgesetzt. mehr...