Generative KITrainingsdaten in Form bringen
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.
BMBF/disy Informationssysteme: Gewalt im öffentlichen Dienst erfassen
[20.11.2024] Das Forschungskonsortium InGe hat einen Prototyp einer digitalen Meldeplattform für Gewaltvorfälle im öffentlichen Dienst vorgestellt. Erfasst werden können auch nichtstrafbare Vorfälle, um eine fundierte Datenbasis für Prävention zu schaffen. Grundlage ist die Software disy Cadenza. mehr...
DIN-Prozess: Mehr Qualität für digitale Services
[19.11.2024] Auf Initiative des Bundesinnenministeriums trafen sich Beschäftigte aus Verwaltung und Wirtschaft zu einem Auftaktworkshop beim Deutschen Institut für Normung (DIN). Ziel des Treffens war es, den Grundstein für verbindliche, einheitliche Qualitätsstandards für digitale Verwaltungsleistungen zu legen. mehr...
Open Data Forum: Offen für die Zivilgesellschaft
[19.11.2024] Das Open Data Forum öffnet sich ab sofort für die Zivilgesellschaft. Bürgerinnen und Bürger können sich nun beteiligen und über die Nutzung und Bereitstellung offener Daten austauschen. Bisher war die Plattform nur für Behörden zugänglich. mehr...
Hamburg: Umfrage zur digitalen Teilhabe
[18.11.2024] Laut einer repräsentativen Umfrage der Behörde für Justiz und Verbraucherschutz sowie der Verbraucherzentrale Hamburg nutzen die meisten Hamburgerinnen und Hamburger regelmäßig digitale Dienstleistungen. mehr...
Hamburg/Schleswig-Holstein: Auszeichnung für das Projekt KERN
[12.11.2024] Im Kooperationsprojekt KERN entwickeln Hamburg und Schleswig-Holstein ein Open-Source-basiertes Baukastensystem für digitale Verwaltungslösungen, das allen Bundesländern zur Verfügung steht. Die Zusammenarbeit erhielt nun den Preis für gute Verwaltung 2024. mehr...
Breitenbrunn: Mobilfunkmast in Betrieb gegangen
[12.11.2024] In Breitenbrunn wurde jetzt ein neuer Mobilfunkmast offiziell in Betrieb genommen, der durch das bayerische Mobilfunk-Förderprogramm mit 327.000 Euro unterstützt wurde. mehr...
Rheinland-Pfalz: Schriftform auf dem Prüfstand
[11.11.2024] Der Ministerrat von Rheinland-Pfalz hat einen Gesetzentwurf zur Förderung elektronischer Kommunikation in der Verwaltung verabschiedet. In über 200 Einzelnormen soll die Schriftform entfallen oder durch digitale Optionen ergänzt werden. mehr...
Datawin: Bund bestellt 60 Dokumentenscanner
[07.11.2024] Die Bundesrepublik Deutschland hat im Rahmen einer neuen Ausschreibung des Bundesministeriums des Innern und für Heimat 60 Dokumentenscanner des Typs InoTec SCAMAX 611 bestellt. mehr...
Aufenthalt: Breitenwirkung in der Fläche
[06.11.2024] Vier Jahre nach der ersten Pilotierung sind die federführend von Brandenburg entwickelten OZG-Onlinedienste Aufenthalt in über 250 Ausländerbehörden in 14 Bundesländern im Einsatz. Die Entwicklung geht kontinuierlich weiter. mehr...
Sovereign Tech Fund: Open-Source-Initiative fest etabliert
[06.11.2024] Bisher hatte der Sovereign Tech Fund, der das Open-Source-Ökosystem stärken soll, den Status eines Pilotprojekts. Nun wird die Initiative in eine selbstständige Tochtergesellschaft der Bundesagentur für Sprunginnovationen – SPRIND – eingegliedert. mehr...
Luftfahrt-Bundesamt: Drohnenregistrierung in Sekunden
[04.11.2024] Das Luftfahrt-Bundesamt (LBA) stellt für die Drohnenregistrierung eine vollautomatisierte Lösung zur Verfügung. Künftig können die jährlich rund 115.000 UAS-Betreiberregistrierungen sowie 56.000 Kompetenznachweise für Fernpiloten jeweils in wenigen Minuten bearbeitet werden. Bisher dauerte der Prozess rund zwei Wochen. mehr...
ITZBund: Leitungsstab mit neuer Spitze
[31.10.2024] Frauke Greven ist die neue Leiterin des Leitungsstabs beim Informationstechnikzentrum Bund und wird künftig das Direktorium des zentralen IT-Dienstleisters der Bundesverwaltung bei seinen vielfältigen Aufgaben unterstützen. mehr...
disy: Datengestütztes Wassermanagement
[24.10.2024] Klimawandelbedingte Trockenheit und Niedrigwasserphasen stellen eine zunehmende Herausforderung für zahlreiche Sektoren dar. Das BMDV-Forschungsprojekt NieTro² hat ein datengestütztes Entscheidungssystem entwickelt, das öffentliche Akteure mit aktuellen Informationen unterstützt, um nachhaltige Maßnahmen zu koordinieren. mehr...
Nordrhein-Westfalen: Starkregenschutz aus der Hosentasche
[23.10.2024] Auch als Reaktion auf die Hochwasserkatastrophe 2021 hat der Wasserverband Lippeverband eine App entwickelt, die Bürgern helfen soll, den Überflutungsschutz ihrer Häuser zu überprüfen. Die Flood Check-App, bisher nur in ausgewählten Städten verfügbar, wird nun landesweit in Nordrhein-Westfalen ausgerollt. mehr...
BMI: GovTalk 2024
[22.10.2024] Beim GovTalk 2024, organisiert vom BMI, diskutierten Expertinnen und Experten aus Bund, Ländern und Kommunen über zentrale Themen der Verwaltungsdigitalisierung. Anlass der Veranstaltung war die Vorstellung des eGovernment MONITOR 2024. Im Fokus standen digitale Identitäten und die Herausforderungen der föderalen Strukturen. mehr...