Datenaufbereitung für KI – Chunksize Visualisation

Sind die Ergebnisse beim „Chat mit deinen Daten“ nicht wie erwartet, muss man nicht lange auf das obligatorische
Shit in – Shit out warten.
Dabei ist es doch gerade die Aufgabe des LLM mit unstrukturierten Daten umzugehen.
Nahezu alle Systeme, die Konversation mit größeren Mengen an Dokumenten ermöglichen, basieren auf RAG (Retrieval Augmented Generation). Maßgeblich für die Qualität der Ergebnisse ist die Aufbereitung dieser Daten und damit auch die Zerteilung der Daten in verarbeitbare Teile – die sogenannten Chunks.
Die semantische Suche liefert diese Chunks zurück. Enthalten sie die Informationen nicht (oder nur teilweise), hat das LLM keinen Zugriff auf das gewünscht Know How, also: Info in – Shit out!

Wie der Text tatsächlich aufgeteilt wird, zeigt dieses einfache Tool der KI-Werkstatt:
https://splitter-ki.streamlit.app/

Der Code ist nicht spannend, aber open: https://github.com/HorstA/text-split-explorer
Hab ihn von Harrison Chase geforkt und ein bisschen angepasst.

Viel Spaß beim Optimieren!

Schreibe einen Kommentar