piwik no script img

Künstliche IntelligenzKaufen, scannen, füttern

Eine Online-Plattform bestellt seit einiger Zeit größere Mengen alter Bücher. Händ­le­r:in­nen spekulieren über Betrug, doch vieles spricht für KI-Training.

Der Spuk begann in der Nacht. Um 2.53 Uhr am 30. April ging die erste Bestellung ein bei dem Buchverkäufer Michael Ströter. Dann die nächste, dann die nächste. Wer da orderte, war kei­n:e Privatkäufer:in, sondern immer dasselbe Unternehmen: Zoom Books, eine kanadische Plattform, die sich als „Nordamerikas führende Firma für Buchrecycling“ bezeichnet. Nach eigenen Angaben kauft das Unternehmen Bücher an, nimmt Bücherspenden entgegen, verkauft Bücher – und recycelt, was unverkäuflich ist. Ihr Markt sind die USA und Kanada. Was will Zoom Books mit gebrauchten, eher nischigen deutschsprachigen Büchern?

Ströter verkauft antiquarische Bücher. Früher hatte er mal einen Laden in Bielefeld, mittlerweile ist er in Rente und verkauft hobbymäßig weiter. Maximal drei Bücher an einem Tag sind es normalerweise, erzählt er am Telefon. Bis die merkwürdigen Bestellungen eingingen. Eine, zwei, drei, immer mehr, immer nach demselben Muster: nachts, geordert von Zoom Books, zu senden zunächst an ein Lager in den USA. Wie sollte er die Lieferungen angesichts von Zoll, Porto und Formalitäten überhaupt abwickeln? Ströter stornierte die Bestellungen.

Der Bielefelder ist nicht der einzige Händler, der das Phänomen beobachtet. In Branchenforen und auf Reddit sind die merkwürdigen Bestellungen Thema – und Gegenstand von Spekulationen über die Ursachen. Manche vermuten, Zoom Books wolle sich als Anlaufstelle für vergriffene und schwer erhältliche Bücher etablieren. Andere halten die Bestellungen für einen Kreditkartenbetrug oder eine andere Betrugsmasche.

Die Bestellungen scheinen sich nicht auf eine Weltregion zu beschränken. Berichte darüber gibt es aus Bulgarien, Großbritannien, Deutschland und Neuseeland. Häufig geht es um zweistellige Stückzahlen günstiger Bücher, deren Versandkosten den Warenwert mitunter übersteigen. Viele Händler berichten zudem, dass die Bestellungen zwar im Namen von Zoom Books erfolgen, die Bücher aber an Adressen in den USA geliefert werden sollen – mutmaßlich an Logistikzentren von Amazon.

Steckt KI dahinter?

Bei all den Spekulationen sticht eine Theorie heraus – weil sie den ganzen Vorgang sowohl plausibel erklären könnte als auch in die Zeit passt: Es könnte um Künstliche Intelligenz (KI) gehen. Denn die Modelle, die KI-Chatbots wie ChatGPT, Gemini, Mistral oder Perplexity zu Grunde liegen, müssen mit großen Datenmengen trainiert werden. Große Datenmengen gibt es zwar im Internet. Aber hier sind sie unsortiert und häufig von durchwachsener Qualität.

Die Unternehmen hinter diesen Modellen haben Bücher daher früh als Trainingsmaterial entdeckt. Große Mengen aktueller Titel legal zu erwerben – ob gedruckt oder digital – wäre allerdings teuer. Einige griffen deshalb auf sogenannte Schattenbibliotheken zurück: illegale Büchersammlungen auf Servern, aus denen Nutzer Werke herunterladen und zugleich wieder bereitstellen können. Das Prinzip ist ähnlich wie das von illegalen Musiktauschbörsen.

Gegen diese unhonorierte Ausbeutung ihrer Werke gehen wiederum die Au­to­r:in­nen auf die Barrikaden. Im vergangenen Jahr haben sie einen größeren Erfolg erzielt: Das KI-Unternehmen Anthropic einigte sich mit US-Autor:innen auf einen Vergleich. Damit ist eine Sammelklage beendet, die Anthropic eine unrechtmäßige Nutzung von Büchern für das KI-Training vorwarf. Das Unternehmen verpflichtete sich, mindestens 1,5 Milliarden US-Dollar an Au­to­r:in­nen zu zahlen. Pro Buch sollen das Medienberichten zufolge rund 3.000 US-Dollar sein.

Legal wäre nach US-Recht allerdings das Training von KI-Modellen mit rechtmäßig erworbenen Büchern. Und hier kommen die Bestellungen bei Händler Ströter und anderen Antiquaren wieder ins Spiel. Kauft ein Unternehmen große Mengen günstiger Gebrauchtbücher, zerlegt sie und scannt sie ein, könnten die Texte anschließend zum Training von KI-Modellen genutzt werden.

Dass dies keine abwegige Theorie ist, zeigt ein Gerichtsdokument aus dem Verfahren gegen Anthropic. Darin heißt es, das Unternehmen habe nicht nur Millionen Bücher aus dem Internet heruntergeladen, sondern auch gedruckte Werke gekauft, die Bindungen entfernt, die Seiten zugeschnitten, eingescannt und als durchsuchbare PDF-Dateien gespeichert.

Was sagt der Käufer?

Zoom Books erklärt auf Anfrage, nichts über die Abnehmer der von ihnen gekauften Bücher sagen zu können. „Aber wir wollen klarstellen, dass Zoom Books, im Gegensatz zu jüngsten Spekulationen, keine Bücher digitalisiert und zerstört“, erklärt Reed Pannell, bei Zoom Books für Wachstum zuständiger Manager. Und wäre es denn möglich, dass Zoom Books das zwar nicht selbst macht, aber die Bücher weiterverkauft an ein Unternehmen, das selbiges tut? Hier erwidert Reed nur erneut, dass man keine Auskünfte über die Abnehmer geben könne.

Mittlerweile dürften jedenfalls auch die ersten Bücher eingegangen sein, die zuvor noch bei Ströter lagerten. Denn offenbar hat sich das Unternehmen den Bedingungen der europäischen Händ­le­r:in­nen angepasst. Lieferadresse ist nun ein Lager im sächsischen Kodersdorf.

Ströter sieht das Ganze mit gemischten Gefühlen. „Das Gute ist, dass ich meine Ladenhüter loswerde“, sagt er. Zuletzt etwa ein Buch aus den 70er Jahren, das die Fernseherziehung in Jugend- und Kinderheimen untersuchte. „Aber diese Sachen sind nicht mehr aktuell und entsprechen auch nicht dem Stand der Wissenschaft.“ Er wünsche sich eine Debatte darüber, mit was für Material KI-Modelle eigentlich trainiert werden.

Tatsächlich halten die Konzerne das geheim. Die Ausnahme bilden Open-Source-Modelle wie das Schweizer Apertus. Hier haben die Ent­wick­le­r:in­nen unter anderem die Trainingsdaten offengelegt. Die EU-Regeln für KI, der AI Act, schreiben zwar auch ein gewisses Maß an Transparenz bei den Trainingsdaten vor. Das bleibt jedoch eher oberflächlich. Denn eins zu eins offenlegen müssen die Anbieter ihre Trainingsdaten nicht – eine „hinreichend detaillierte“ Zusammenfassung reicht aus. Was das heißt, werden am Ende wohl Gerichte entscheiden müssen.

Die taz gehört zu 100 Prozent ihren Leser:innen und ist damit nicht nur konzernfrei, sondern auch kostenfrei zugänglich. Alle Artikel stellen wir frei zur Verfügung, ohne Paywall. Gerade in diesen Zeiten müssen Einordnungen und Informationen allen zugänglich sein. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass kritischer, unabhängiger Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung für taz zahl ich. Unser nächstes Ziel: 50.000 – wir brauchen nur noch 180 Freiwillige, dann haben wir es geschafft! Setzen Sie jetzt ein Zeichen für die taz und machen Sie mit. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

5 Kommentare

 / 
  • "Tatsächlich halten die Konzerne das geheim. Die Ausnahme bilden Open-Source-Modelle wie das Schweizer Apertus. Hier haben die Ent­wick­le­r:in­nen unter anderem die Trainingsdaten offengelegt."



    Transparenz schafft Akzeptanz?



    Es ist doch wahrscheinlich, dass die (mehr oder minder?) zielgerichtete Verwertung von in Büchern vorliegendem Allgemein- und Spezial-Wissen, als Fachwissen, nicht ungefiltert erfolgen kann, also quasi analoge "Zensur" unausweichlich ist, insbesondere wenn ideologisch massiv deviante Inhalte vermieden werden müssen als Katalysatoren, die zu unangenehmen Exzessen führen.



    Sonst gilt: Kann mehr als nur Spurenelemente von verfassungsfeindlichen und antidemokratischen Inhalten, von Misogynie und Manosphere enthalten.



    /



    Bei derwesten.de 2025



    "Elon Musks KI-Chatbot Grok sorgt für Empörung: Mit antisemitischen Aussagen und Lob für Adolf Hitler hat die Künstliche Intelligenz eine Debatte ausgelöst. Obwohl xAI die problematischen Inhalte gelöscht hat, wächst die Kritik an der mangelnden Kontrolle. Der Vorfall wirft erneut Fragen zur Verantwortung von KI-Systemen und ihrem Umgang mit sensiblen Themen auf."

  • Die direktest bisher unverfänglichste aller Arten Texte aus allen gesellschaftlichen Bereichen, Kirchen, Kultur, Politik, Kunst, Wirtschaft, Unis, Wissenschaften für KITraining von KI Datenbanken Betreibern ist die Aufladung anschwellenden Hype gebührenpflichtige KI Checker zu installieren, wiederum in allen gesellschatlichen Bereichen, um ab August 2026 EU Kennzeichnungspflicht für KI-generierte Inhalte (Artikel 50) zu entsprechen.

    Aufdeckung und Selbstanzeige nicht gekennzeichneten KI Nutzung Stephan-Andreas Cassdorf Ex Chefredakteurs Tagesspiegel ist dafür ein Indiz und spart dazu KI Checker Gebühren samt CO2 Emissionshandel Kosten durch strafbefreiende KI Täter Selbstanzeige wie bei Steuerbetrügern hierzulande







    taz.de/Kuenstliche...nalismus/!6186985/



    Ann-Kathrin Leclère taz 15.6.2026

  • Eine Online-Plattform bestellt seit einiger Zeit größere Mengen alter Bücher. Händ­le­r:in­nen spekulieren über Betrug, doch vieles spricht für KI-Training.



    ----



    Das "Abgrasen", im Volksmund auch "Klauen" alter Informationen, hier Bücher, für eine "neue Technik" scheint sehr wahrscheinlich.



    DAS ist die billigste "Art & Weise" an Textvorlagen zu kommen, die es im Moment gibt!



    Belegt aber, das "AI/KI" nichts mit "Intelligenz" zu tun hat, sondern nicht anderes als ein "statistisches Modell" ist, das mit "Wahrscheinlichkeiten" & vergangenem Texten, "Wahrscheinlichkeiten aus der "Vergangenheit" in die Zukunft spiegelt & als "Neuigkeiten" verkauft!



    Btw. Das tun Menschen auch, nennen das "Erfahrung"! Doch im Unterschiede zur IT denken Menschen auch außerhalb "fester Modelle", mit der Möglichkeit, "NEUES WISSEN" dabei zu finden!



    Ps. Wenn wir diesen AI/KI "Regelkreis" zu Ende denken, z.B. wimmelt das Netz heute schon zu ca. 50 % von solchen Machwerken, ist der "Zusammenbruch dieser Technik" vorhersehbar! :-(



    Ps. Selbst Denken macht klug! Nur DAS scheinen wir, wie selbst bewegen, immer mehr vergessen zu wollen. Von Manipulationsmöglichkeiten usw. will ich gar nicht erst anfangen! :-(

    • @Sikasuu:

      "DAS ist die billigste "Art & Weise" an Textvorlagen zu kommen, die es im Moment gibt!"

      Die billigste LEGALE Art und Weise, nachdem das illegale Abgrasen der Schatten-Bibliotheken ja doch für hochgezogene Augenbrauen gesorgt hat, und die KI-Piraten für diese Praxis rechtliche Folgen befürchten müssen.

      Wen kümmert es schon, dass dann alte, überholte Daten den allgemeinen KI-Slop noch etwas "sloppier" machen werden. Die Menge macht's.

      • @Systemknecht:

        Ich finde übrigens fraglich, ob das tatsächlich legal ist, und wundere mich, dass der Artikel das so unkritisch wiedergibt. Nur weil ich ein Buch kaufe, dürfte ich es ja noch lange nicht auf den Kopierer legen und die Kopien dann verteilen und erst recht nicht kommerziell verwerten.

        Es gibt aber immer wieder Fälle, in denen KI-Modelle ihre Trainingsdaten 1:1 wiedergeben, "training data memorisation" heißt das. Das könnte man auch hier nicht ausschließen (dass also der Text der Bücher doch wieder aus dem KI-Modell herausfällt), weswegen ich hier eindeutig ein Urheberrechtsproblem sehe. Das Urheberrecht erlischt ja nicht, nur weil ich ein Buch gekauft habe. Hier auch zwei wissenschaftliche Veröffentlichungen dazu: arxiv.org/abs/2502.15858 und arxiv.org/abs/2311.17035