Bekannt: Texte und Bilder, die von Software wie ChatGPT oder Midjourney erzeugt wurden, mit Labeln kennzeichnen.
Idee: Warum nicht auch Inhalte, die von Menschen generiert wurden, als solche labeln?
Denn: Es entsteht ein eigener Datensatz, der für das Training interessanter ist als die große Menge an "Rest". Und: Die Auszeichnung läuft bereits erfolgreich in Wikipedia oder bei Captchas. #ChatGPT #Midjourney #Wikipedia #Captchas
@klischka
Aber ja: Eine interessante KI-Anwendung wäre es, von Menschen erstellte Aufnahmen besser zu klassifizieren und in unübersichtlichen Datenbeständen auffindbar zu machen.
@publictorsten so gesehen: jedes verifizierte (c) zu einem Text / Bild erhöht den Wert als Trainingsdaten und ist eine Investition, dass vielleicht mal Bezahlung fürs die Nutzung zum Training fließt.
@klischka
Das machen kommerzielle Anbieter doch bereits recht ausgiebig?
@publictorsten ich denke an uns alle, die tolle Daten in Plattformen kippen
@publictorsten Andere Idee: mit dem irgendwie belastbaren (c) kann man auch cc-Lizenzen verbinden. CC-SA und du hast offene Modelle? Nur mit dem BY ist es schwierig…
@klischka Etwas konkreter? CC-BY ist heutzutage so belastbar wie (C).
@publictorsten Wenn deine LinkedIn-Postd mit Millionen anderer Trainingsdaten für ein LLM sind, was steht dann unter dem generierten Output im Einzelfall, um das BY zu erfüllen?
@klischka Nichts. Aber willst Du ein "BY" oder einen minimalen Geldfluss pro Nachnutzung?
@klischka Meta: Wenn jemand ein LLM mit LinkedIn-Posts füttert, plädiere ich dafür, alle kontaminierten Datenträger zu vernichten. :-)
@publictorsten Och, für einen Business-BS-Bot? ;)
@publictorsten Danke fürs Diskutieren, hat mich nochmal auf andere Gedanken gebracht: https://konradlischka.info/bioqualitat-nicht-nur-ki-generiertes-kennzeichnen-sondern-auch-menschengemachte-texte-und-fotos/