Ich habe bei meinem Blog nicht durch eine entsprechende robots.txt markiert, dass KI-Crawler diesen bitte auslassen. Meine Webseite ist statisch und liegt bei einem großen Hoster. Bei diesem werden vermutlich selbst große Mengen von Crawleraufrufen auf statische Seiten im Rauschen des Tagesbetriebs untergehen. Performanceauswirkungen des Crawlings sind für mich also eher nebensächlich. Ich habe über die letzten Monate einiges an Texten von Betreibern gelesen, bei denen das völlig anders aussieht und Teil der Entscheidungsfindung sein muss.
Zum anderen ist da folgende Überlegung: Wenn immer mehr textliche Inhalte (ich beziehe mich ausdrücklich nur auf diese und nicht auf andere Inhalte wie Programmierleistungen, Bilder oder Videos, die einer eigenen Diskussion bedürfen) durch entsprechende Einträge für die KI-Crawler nicht einsehbar sind, was „lernt“ die KI aus dem Rest? Es wäre beispielsweise denkbar, dass eine Korrelation zwischen einem bestimmten politischen Spektrum und einer gehörigen Portion KI-Skepsis besteht. Dann wäre die logische Konsequenz, dass vornehmlich Dokumente eben dieses Spektrums fehlen. Das Fundament auf dessen Basis die KI lernt, hätte einen Bias und damit auch die KI selbst.
Inhalte im Internet sind nun nicht der einzige Unterbau, auf dem eine KI ihr statistisches Modell stützt. Es gibt einen reichhaltigen historischen Textkörper, der als Grundlage dienen kann. Es geht mir um das Ausschlagen des Zeigers in die eine oder andere Richtung durch eine eben nicht zufällige Verteilung der restlichen Trainingsdaten. Ein Bias entstünde als Produkt einer algorithmischen Auslassung.
Ich sehe das offensichtliche Dilemma: Auf der einen Seite möchte man nicht, dass das textgewordene Herzblut von anderen Leuten kommerzialisiert wird. Ich habe hier auch erhebliche Bauchschmerzen. Ich selbst kommerzialisiere meine Texte nicht. Ich schreibe um des Schreibens willen. Warum sollten es also andere dürfen? Wenn man aber das Werkzeug LLM als unumgänglich annimmt, provoziert das die Frage, wie sich der Datensatz darstellt, auf dessen Basis sich das statistische Modell des LLM bildet. Es fehlen schließlich die Texte, die man schreibt. Die eben nicht nur Herzblut, sondern auch Erfahrungen, Meinungen, Denkstrukturen, Vorurteile, Wissen und so viel mehr enthalten. Jetzt wird das Fehlen meiner Texte keinen messbaren Impact haben, aber als massenhaftes Phänomen sieht es dann schon anders aus. Eine Kerze mag nicht weit strahlen, aber wenn jeder eine Kerze anzündet wird es schon ziemlich hell.
Ich weiß aus diesem Dilemma auch keinen guten Ausweg. Ein Vergütungsschema vielleicht. Aber das würde meinem Wunsch nach Nichtkommerzialität widersprechen. Ich habe mich nur auf Basis der Bias-Überlegung vorläufig dafür entschieden, KI-Crawler nicht zu blocken.