Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Kollage: Foto eines Bürogebäudes, über das links das EMAS-Logo gelegt ist mit Text „EMAS geprüftes Umweltmanagement Reg. No. DE-110-00044“

ITZBund: EMAS erfolgreich eingeführt

[25.06.2024] An elf seiner Liegenschaften hat das ITZBund die Audits nach den hohen Anforderungen des Europäischen Umwelt-Management-Systems EMAS erfolgreich absolviert. Der IT-Dienstleister sieht sich als Wegbereiter für eine nachhaltige Digitalisierung in der gesamten Bundes-IT. mehr...

Baden-Württemberg: Förderung für LoRaWAN

[21.06.2024] Fraunhofer IAO und das IAT der Universität Stuttgart sollen die Anwendung von LoRaWAN in baden-württembergischen Kommunen erforschen und praxistaugliche Anwendungsfälle entwickeln. Das Land unterstützt das Vorhaben mit 383.000 Euro. mehr...

3d Rendering, ein helles Tablet mit visualisierter Smart City

BMWSB: Stufenplan für „Smarte Städte und Regionen“

[14.06.2024] Einen Stufenplan für „Smarte Städte und Regionen“ hat das Bundesministerium für Wohnen, Stadtentwicklung und Bauwesen (BMWSB) verabschiedet. Er soll ein Rahmenwerk für die Digitalisierung der Stadt- und Regionalentwicklung schaffen. Vorgeschlagen wird unter anderem die Einrichtung eines Marktplatzes für digitale Lösungen. mehr...

Illustration/Compositebild in verschiedenen Blautönen, Weiß und Gelb mit dem Logo von Beteiligung NRW.

Nordrhein-Westfalen: Erfolgsgeschichte für Online-Partizipation

[04.06.2024] Seit gut zwei Jahren stellt das Land Nordrhein-Westfalen seinen Ministerien, Landes- und Kommunalverwaltungen eine Beteiligungsplattform zur Verfügung, mit der diese eigene Beteiligungsverfahren durchführen können. Das Angebot kommt an: Über 260 Mandanten wurden inzwischen umgesetzt. mehr...

forsa-Umfrage: Begrenztes Vertrauen in KI

[29.05.2024] Datengesteuertes Handeln in Politik und Verwaltung, unter Rückgriff auf vielfältige Daten aus unterschiedlichsten Quellen – das ist eine der Möglichkeiten, die Künstliche Intelligenz eröffnet. Viele Deutsche fühlen sich bei dem Gedanken, dass der Staat mit KI Entscheidungen trifft, aber eher unwohl, wie eine aktuelle Umfrage zeigt. mehr...

In einem hellgrau gestrichenen, freundlicher Raum steht eine Frau an einem Flipchart, um sie herum eine Gruppe von Personen, die zuhört.

FITKO: OZG-Erfahrungsaustausch in Erfurt

[28.05.2024] Auf Einladung der FITKO treffen im Rahmen des OZG-Erfahrungsaustauschs Vertreterinnen und Vertreter von Bund und Ländern regelmäßig zusammen. Wichtige Themen des letzten Treffens in Erfurt waren der Roll-out von OZG-Leistungen in die Fläche und die Anbindung von Fachverfahren sowie die Registermodernisierung. mehr...

Screenshot der Startseite des bayrischen Karriereportals "Sei daBay"

Bayern: Karriereportal ab sofort online

[22.05.2024] Auf einer zentralen Website versammelt Bayern alle Informationen über die Beschäftigung beim Land als Arbeitgeber, verschiedene Berufsbilder und Einstiegsoptionen und natürlich Jobangebote im öffentlichen Dienst. Über die integrierte Stellenbörse ist es möglich, sich direkt online zu bewerben. mehr...

Das Bild zeigt eine Bühne des Creative Bureaucracy Festival auf der kostümierte Menschen Musik machen.

Festival: Kreativität trifft auf Bürokratie

[10.05.2024] Am 13. Juni beginnt in Berlin das 7. Creative Bureaucracy Festival. Über 200 Referenten aus 40 Nationen stellen auf vier Bühnen ihre Ansätze zur Transformation der Verwaltung vor. Höhepunkte sind Diskussionen über digitale Methoden, nachhaltige Verwaltung und Künstliche Intelligenz. mehr...

Bienenkorb in der Sächsischen Staatskanzlei im virtuellen 360-Grad-Rundgang

Sachsen: Virtueller Einblick in die Staatskanzlei

[07.05.2024] Zum 120-jährigen Jubiläum der Sächsischen Staatskanzlei gewährt ein digitaler Rundgang nun Einblicke in die reiche Geschichte und Architektur des historischen Gebäudes. mehr...

Das Bild zeigt Thomas Petri, den Bayerischen Landesbeauftragten für den Datenschutz.

EU-Daten-Governance: Hilfe zur Orientierung

[06.05.2024] Seit Herbst 2023 regelt der Data-Governance-Rechtsakt den Binnenmarkt für Daten in der EU. Eine neue Orientierungshilfe des Bayerischen Landesbeauftragten für den Datenschutz soll nun Klarheit schaffen und öffentliche Stellen bei der Anwendung der neuen Regelungen unterstützen. mehr...

Hände halten Smartphone, auf dem Screen sieht man ein Chatprotokoll.

115: Chatbot im Pilotbetrieb

[29.04.2024] Ein Chatbot soll künftig die zentrale Behördenrufnummer 115 ergänzen und so den Mitarbeitenden im Telefonservice mehr Zeit für komplexe Beratungsgespräche lassen. Derzeit wird der Service-Chatbot in zehn Pilotkommunen erprobt. Noch funktioniert er regelbasiert – also ohne KI. mehr...

Das Bild zeigt die Tabelle des Bitkom-Länderindex 2024 mit Hamburg, Berlin und Bayern an der Spitze.

Bitkom-Ranking: Spitzenreiter mit Lösungen von cit

[25.04.2024] Die drei Spitzenreiter im Digitalisierungsindex des Branchenverbands Bitkom nutzen die Low-Code-Plattform cit intelliForm für die Umsetzung digitaler Anträge und Bürgerservices. mehr...

Eine junge Frau und ein älterer, grauhaariger Mann sitzen gemeinsam vor einem Laptop, auf dessen Bildschirm sie blicken.

Bayern: Beratung für digitale Einsteiger

[19.04.2024] Das bayernweite Projekt „zusammen digital“ will Menschen, die bisher nur geringe digitale Fähigkeiten haben, darin unterstützen, digitale Alltagsangebote zu nutzen. Nun gab der bayerische Digitalminister Fabian Mehring den Startschuss für die nächste Projektphase, bei der 16 weitere der barrierearmen Beratungsorte entstehen sollen. mehr...

Blick auf einen Schreibtisch mit Laptop, Aktenn und einer männlichen Person mit hellem Oberhemd.

Riverbed-Studie: Digitales Erlebnis im öffentlichen Sektor

[17.04.2024] Mit der fortschreitenden Digitalisierung rückt auch das digitale Erlebnis stärker in den Fokus – der Eindruck, den jemand auf Basis der digitalen Interaktion von einem Unternehmen oder einer Organisation gewinnt. Eine Studie beleuchtet, wie dieses Thema im Public Sector gesehen wird. mehr...

Grafik zeigt den ansteigenden Fachkräftemangel bis 2040.

Bitkom: IT-Fachkräftemangel verschärft sich

[15.04.2024] Der Mangel an IT-Fachkräften droht sich dramatisch zu verschärfen. Dies geht aus einer Studie des Bitkom hervor, wonach bis 2040 in Deutschland über 660.000 IT-Fachleute fehlen. Dies betrifft das gesamte Land, auch die Verwaltung. Der Verband benennt gezielte Gegenmaßnahmen – vom Schulunterricht bis hin zur freiwilligen Weiterbeschäftigung im Alter. mehr...