Generative KITrainingsdaten in Form bringen

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.
(Bildquelle: 123rf.com/peshkova)
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen. (sib)
Schleswig-Holstein: Fischereiverwaltung wird digital
[04.04.2025] Schleswig-Holstein digitalisiert das Fischereiwesen: Fischereischeine und die Fischereiabgabe sollen künftig digital verwaltet werden. Das neue Verfahren soll auch in anderen Bundesländern genutzt werden und langfristig eine bundesweite Harmonisierung ermöglichen. mehr...
Bayern: Ein Jahr Zukunftskommission
[28.03.2025] Die Zukunftskommission #Digitales Bayern 5.0 hat ihren aktuellen Bericht vorgelegt. Unter Leitung des Finanz- und Heimatministeriums erarbeiten Ministerien, Kommunalverbände und Experten Lösungen für eine einheitlichere, effizientere und sicherere IT in Bayerns Kommunen. mehr...
Hamburg: Digitale Steuererklärung kommt voran
[26.03.2025] In Hamburg können Steuerpflichtige ihre Belege direkt online hochladen und effizient zuordnen. Zum Einsatz kommt das neue Verfahren RABE. Nach der erfolgreichen Pilotphase in Hamburg soll noch 2025 der bundesweite Roll-out erfolgen. mehr...
Rheinland-Pfalz: Preiswürdige Nachnutzung von Onlinediensten
[21.03.2025] Rheinland-Pfalz wurde für seine EfA-Strategie bei der OZG-Umsetzung mit dem govdigital-Sonderpreis ausgezeichnet. Besonders gewürdigt wurde die erfolgreiche Nutzung des Marktplatzes für EfA-Leistungen, der Kommunen die Nachnutzung von Onlinediensten erleichtern soll. mehr...
Bayern: Zusammenarbeit im Prozessmanagement
[21.03.2025] Bayern tritt der von Mecklenburg-Vorpommern, Berlin und dem Bund gegründeten, bundesweiten Plattform zum Prozessmanagement in der Verwaltung bei. Deren Ziel ist es, Arbeitsabläufe vor ihrer Digitalisierung zu analysieren und digitale Standards der Verwaltung zu harmonisieren. mehr...
ZenDiS: Souveränitätspaket präsentiert
[17.03.2025] Das Zentrum für Digitale Souveränität erweitert sein Angebot um Beratung und einen Souveränitätscheck für den Public Sector. Letzterer soll Abhängigkeiten aufzeigen und die Beschaffung absichern. Zudem zeigt die Plattform openCode nun die Softwarequalität transparent an. mehr...
Baden-Württemberg: Frischzellenkur für die Landesplanung
[14.03.2025] Ein neues Landesgesetz soll in Baden-Württemberg die Aufstellung von Raumordnungsplänen erleichtern. Künftig sollen Verfahren schneller und rechtssicherer werden – auch dank digitaler Lösungen. Unter anderem wird die Onlinebeteiligung ausgebaut. mehr...
Schleswig-Holstein: „Offene Innovation“ geht in die nächste Runde
[11.03.2025] Das schleswig-holsteinische Landesprogramm „Offene Innovation“ will gemeinnützige und öffentliche Organisationen in Zusammenarbeit mit der heimischen Digitalwirtschaft bei der Entwicklung quelloffener digitaler Lösungen unterstützen. Ab April können wieder Konzepte eingereicht werden. mehr...
DIN SPEC 66336: Qualitätsstandards für digitale Verwaltungsleistungen
[10.03.2025] Die DIN SPEC 66336, die erstmals Qualitätsanforderungen für digitale Verwaltungsleistungen festlegt, wurde jetzt verabschiedet. Verwaltungen und ihre Dienstleister erhalten damit ein Werkzeug, das die Entwicklung und Umsetzung von intuitiv und einfach nutzbaren Digitalisierungsprojekten erleichtern soll. mehr...
Bremen: Kulturfördermittel digital beantragen
[07.03.2025] Bremen digitalisiert die Kulturförderung: Anträge für die zweite Fördertranche der Jungen Szene können jetzt online gestellt werden. Der neue Service soll das Verfahren effizienter und transparenter machen – und könnte als Modell für weitere Bereiche der Kulturverwaltung dienen. mehr...
BMI: Feedbackkomponente bundesweit verfügbar
[03.03.2025] Alle Bundesländer und SDG-relevanten Bundesressorts sind nun an die Nationale Feedback-Komponente angeschlossen. Diese erlaubt es Verwaltungen, systematisch Nutzerfeedback zu erfassen und auszuwerten – ein Schritt zur Erfüllung von SDG-Vorgaben. mehr...
Beschaffungsamt: Dienstleistungen nachhaltig beschaffen
[25.02.2025] Die nachhaltige Beschaffung von Dienstleistungen sollte der Regelfall sein – ist in der Praxis jedoch oft sehr komplex. Die Kompetenzstelle für nachhaltige Beschaffung (KNB) beim Beschaffungsamt hat nun eine umfassende Hilfestellung für Beschaffende aller Ebenen veröffentlicht. mehr...
IT-Planungsrat: Neuer Bericht zur Datennutzung
[19.02.2025] Beim Jahresauftakttreffen des IT-Planungsrats zum Schwerpunktthema Datennutzung diskutierten Vertreterinnen und Vertreter aus Bund, Ländern und Kommunen aktuelle Fortschritte und kommende Projekte. Der jetzt vorliegende Jahresbericht bietet dazu einen detaillierten Überblick. mehr...
OSBA: Beschaffung von Open Source Software
[14.02.2025] Bei öffentlichen Ausschreibungen zählt meist der niedrigste Preis. Im Fall von Open Source Software ist dies oftmals zum Schaden des Auftraggebers: Sicherheits- und Wartungsprobleme drohen, wenn Anbieter zu knapp kalkulieren. Die OSBA hat ein Paper zur nachhaltig erfolgreichen Beschaffung veröffentlicht. mehr...
Sachsen-Anhalt: Ideen für digitale Verwaltung gesucht
[12.02.2025] Das Land Sachsen-Anhalt sucht erneut innovative Ideen für die digitale Verwaltung. Gefragt sind digitale Konzepte und Modelle für die vielfältigen Aufgaben der öffentlichen Verwaltung. Bewerbungen sind bis 14. März möglich. mehr...