Datenspezifische Bewertungsgrundlagen für den Erfolg von ML-Konzeptnachweisen

Januar 14, 2025 in Alle, Allgemein, Computing von Becks Simpson

Übertragung Ihres ML-Konzeptnachweises in die Produktion – Teil 2: Daten strukturieren

*(Quelle: FAMILY STOCK – stock.adobe.com)*

Niemand kann mit dem Aufbau eines Konzeptnachweises (Proof of Concept, POC) für maschinelles Lernen (ML) beginnen, ohne sich mit den Daten zu befassen, die für die Umsetzung dieses Konzepts erforderlich sind. Im Mittelpunkt des Interesses steht zwar die Menge der benötigten Daten (und in geringerem Maße auch die Arten), doch auch die Qualität der Daten ist für den Erfolg von entscheidender Bedeutung. Bisher ging es in dieser Blog-Serie um die Festlegung von Geschäftszielen und deren Umsetzung in ML-Metriken. Dieser Beitrag befasst sich nun damit, was dies für die Erstellung eines aussagekräftigen, spezifisch auf den Konzeptnachweis abgestimmten Datensatzes bedeutet. Die Informationen aus der vorherigen Phase sind für fundierte Entscheidungen in Bezug auf die Daten von entscheidender Bedeutung, da sie dabei helfen, den für das Modell erforderlichen Input zu bestimmen, damit es lernt, Entscheidungen zu treffen, sowie den Output, der erforderlich ist, damit das Modell für das Unternehmen von Nutzen ist. Darauf aufbauend besteht der letzte Schritt darin, die erforderliche Datenmenge zu ermitteln und bei Bedarf Pipelines für die Datenerfassung zu erstellen.

Auswahl des Dateninputs und Label-Kriterien für Ergebnisse

Der erste Schritt bei der Vorbereitung eines Datensatzes für ein Projekt zum ML-Konzeptnachweis besteht darin, die erforderlichen Input-Datenpunkte, die Informationen oder Merkmale, die sie umfassen, und die Ergebnisse oder Labels, mit denen sie verknüpft sind und die vorhergesagt werden müssen, zu definieren. Die Verknüpfung des gewünschten Outputs mit dem Input ist typisch für die Kennzeichnung oder Kommentierung der Input-Daten und ist auch ein wichtiger Aspekt beim Aufbau eines Datensatzes. Die konkrete Definition und Auswahl von Daten-Inputs und -Outputs des Anwendungsfalls mag auf der Hand liegen, aber es ist sicherlich hilfreich, dabei auch zu berücksichtigen, welche Daten tatsächlich verfügbar oder beschaffbar sind. Dies gilt insbesondere für Daten aus internen Quellen ohne Open-Source-Äquivalente, was bei kundenspezifischen Anwendungsfällen oder bei starker Abhängigkeit von proprietären Daten häufig der Fall ist. Wenn die gewünschte Vorhersage für das Projekt beispielsweise „Zunahme oder Abnahme der Zufriedenheit“ nach einer Interaktion mit dem Kundensupport ist, muss der Zufriedenheitsgrad sowohl vor als auch nach dem Ereignis erfasst werden, was oft nicht der Fall ist. Eine Unterbrechung des Projekts zur Einrichtung von Pipelines für die Datenerfassung zur Erstellung von Datensätzen ist möglich. Wenn die ausgewählten Inputs/Outputs jedoch nicht sinnvoll zusammengetragen werden können, reicht selbst eine Phase der Datenerfassung nicht aus.

Sicherstellen der Datenqualität

Unabhängig davon, ob Daten sofort verfügbar sind oder zunächst beschafft werden müssen, ist das Sicherstellen einer guten Datenqualität durch Exploration und Transformation der nächste wichtige Schritt. Dadurch wird gewährleistet, dass die Daten zuverlässige und reproduzierbare Ergebnisse liefern. Zu den typischen Kriterien der Datenqualität zählen Vollständigkeit, Konsistenz, Genauigkeit und Validität. Das erste Kriterium berücksichtigt, ob und in welchem Umfang Merkmale der Input-Daten fehlen. Handelt es sich bei dem Anwendungsfall um überwachtes Lernen, umfasst die Vollständigkeit wahrscheinlich auch die Frage, ob genügend Labels für alle gewünschten Vorhersagen vorhanden sind.

Bei der Konsistenz geht es um die Frage, ob die Informationen über alle Datenpunkte hinweg auf die gleiche Weise kodiert werden oder ob sie in irgendeiner Weise variieren. So könnten beispielsweise Inkonsistenzen in den Daten zwischen den Zeiträumen auftreten, wenn sich das Team, das sie erstellt, oder das Verfahren zu ihrer Erfassung geändert haben. Dies kann bedeuten, dass einige Informationen nicht mehr erfasst werden oder vorher nicht erfasst wurden. Inkonsistenzen können auch durch eine unterschiedliche Aufzeichnung oder Kommentierung durch die Beobachter (Beobachterverzerrung) verursacht werden. Bei der Bewertung der Konsistenz sollten auch Ausreißer und andere Störungen berücksichtigt werden, die die Genauigkeit der Vorhersage beeinträchtigen.

Genauigkeit und Validität hängen eng miteinander zusammen, da ungültige Daten oft auch ungenau sind. Wenn beispielsweise die Körpergröße einer Person mit 6 m statt mit 6 ft. angegeben wird, ist dies sowohl ungültig – da 6 m nicht plausibel ist – als auch falsch. Andere Ungenauigkeiten sind jedoch schwer nachzuvollziehen, wie beispielsweise die falsche Klassifizierung eines Tumortyps in einer medizinischen Untersuchung. Der Typ kann zwar gültig, aber für diesen Datenpunkt falsch sein, daher sollten die Daten vor ihrer Verwendung so weit wie möglich überprüft werden. All diese Überprüfungen der Datenqualität geben Aufschluss über die Arten von Transformationen, die erforderlich sind, um sicherzustellen, dass gute Daten gesammelt werden, und um Qualitätsprobleme in vorhandenen Daten zu verbessern.

Ermittlung der erforderlichen Datenmenge

In ML-Projekten wird häufig die Frage gestellt: Wie viele Daten sind nötig? Diese Frage bezieht sich nicht nur darauf, wie viele Input-Daten benötigt werden, sondern auch darauf, wie viele Datenmarkierungen für eine ausreichende Verteilung über den Bereich der zu prognostizierenden Output-Daten erforderlich sind. Die Antwort hängt davon ab, welche Methoden im Rahmen der Untersuchungen verwendet werden und wie einfach die Input-Daten sind. Je komplexer die Daten sind, desto mehr Daten werden benötigt. Betrachtet man die Komplexität der Daten, so benötigt ein Modell, das von ganzen Bildern lernen muss anstatt von extrahierten Teilen oder Heuristiken, mehr Beispiele, um effektive Vorhersagen zu treffen. Umgekehrt benötigen Modelle von der Stange oder vorgefertigte Basismodelle weniger Dateneingänge, da sie bereits für Aufgaben mit riesigen Datensätzen trainiert wurden. Dies gilt auch für Modellierungsmethoden, bei denen die Extraktion von Merkmalen mit der Verwendung statistischer Modelle gekoppelt ist; diese Ansätze reduzieren die Komplexität der benötigten Daten, indem sie einen Teil der Variabilität entfernen, die das Lernen erschwert. Der datenintensivste Ansatz besteht darin, ein Deep-Learning-Modell von Grund auf zu trainieren, obwohl dies angesichts der vielen Möglichkeiten, die das moderne ML-Ökosystem bietet, heute weniger verbreitet ist.

Die Komplexität der Daten und die Ausrichtung der Untersuchungen geben zwar eine ungefähre Vorstellung von der benötigten Datenmenge, aber andere Methoden liefern eine wesentlich nützlichere, konkretere Zahl. Die Zehnerregel besagt beispielsweise, dass zehnmal so viele Datenpunkte wie Parameter im Modell benötigt werden, wohingegen statistische Ansätze wie die Power-Analyse ermitteln, ob eine bestimmte Größe der Stichprobe groß genug ist, um das Ergebnis als echt zu betrachten. Nutzt man den Output eines dieser Verfahren in Verbindung mit der vorangegangenen Phase der Datenqualität, um gegebenenfalls die Datenerfassung zu optimieren, ist es wahrscheinlicher, dass das Projekt erfolgreich verläuft.

Fazit

Daten können über den Erfolg eines ML-Konzeptnachweises entscheiden. Selbst bei einer riesigen Datenmenge werden die Ergebnisse bei mangelnder Qualität entweder nicht den erforderlichen Standards entsprechen oder sogar inkonsistente und unzuverlässige Vorhersagen liefern. Auch einwandfreie Daten, die perfekt aufbereitet sind, werden nicht zum Erfolg führen, wenn nicht genügend davon vorhanden sind, um sinnvolle Muster zu erkennen. Vor allem aber kann die Auswahl von Inputs und Outputs, die nicht ohne Weiteres verfügbar sind, das Projekt zum Scheitern bringen, bevor es überhaupt begonnen hat. Daher ist eine klar definierte, standardisierte und realistische Datenauswahl von entscheidender Bedeutung.

In dieser Blog-Serie wurden bisher zwei wichtige erste Schritte für den Erfolg eines ML-Projekts behandelt: die Festlegung von Zielen und deren Umsetzung in Messgrößen sowie die Vorbereitung des Datensatzes. In den folgenden Beiträgen erfahren Sie mehr über die verbleibenden, ebenso wichtigen Schritte bei der agilen, aber gleichzeitig robusten Entwicklung eines ML-Konzeptnachweises und der Überführung der daraus gewonnenen Erkenntnisse in die Produktion. In weiteren Blogbeiträgen werden wir uns mit der Einrichtung von Experimentier-Tools, der Entwicklung von Ressourcen und Ansätzen für die Erstellung von Konzeptnachweisen (einschließlich Open-Source-Modellen), der Erstellung von Richtlinien und Schwerpunktthemen bei der Erweiterung auf eine produktionsreife Version sowie mit der Frage beschäftigen, was nach der Implementierung zu erwarten und zu überwachen ist.

« Zurück

Becks Simpson

Tags: KI, Machine Learning

Mouser German Blog

Mouser Electronics, Inc german language blogs

Übertragung Ihres ML-Konzeptnachweises in die Produktion – Teil 2: Daten strukturieren

Auswahl des Dateninputs und Label-Kriterien für Ergebnisse

Sicherstellen der Datenqualität

Ermittlung der erforderlichen Datenmenge

Fazit

Suche

Kategorien

Ausgewählte Autoren

Alle Autoren

Archiv

Tags

Kundenservice

Unternehmen

Ressourcen

Support

Folgen Sie uns

Mouser German Blog

Mouser Electronics, Inc german language blogs

Übertragung Ihres ML-Konzeptnachweises in die Produktion – Teil 2: Daten strukturieren

Auswahl des Dateninputs und Label-Kriterien für Ergebnisse

Sicherstellen der Datenqualität

Ermittlung der erforderlichen Datenmenge

Fazit

Ähnliche Beiträge

COVID-19-Kontaktverfolgung greift langsam

Erfolg durch eine robuste Experimentierumgebung

Anlagen und Güter mit LoRaWAN®-Lösungen verfolgen

Präzise Positionsverfolgung mit Ultrabreitband

Entgegen dem Trend: IoT-Projekte erfolgreich gestalten

Edge-Geräte als entscheidender IoT-Erfolgsfaktor

Suche

Kategorien

Ausgewählte Autoren

Alle Autoren

Archiv

Tags

Kundenservice

Unternehmen

Ressourcen

Support

Folgen Sie uns