Firmenwissen sicher in die KI transportieren

Durchsuchen und nutzen Sie Ihre eigenen Daten und Dokumente mit einem AI-Modell (LLM) und RAG

Was ist Retrieval-Augmented Generation?

RAG (Retrieval-Augmented Generation) ist ein Verfahren, das es ermöglicht, vorhandene Dokumente wie z.B. PDFs, Textdateien (XML/JSON) und Datenbankexporte etc. in Embeddings (Vektoren) umzuwandeln. Ein Dokument wird dabei in kleinere (relevante) Abschnitte unterteilt (Chunks) und als Embedding inklusive Metadaten (Ursprung) gespeichert. Die Sucheingabe (Prompt) des Benutzers wird dann zur Laufzeit in ein Embedding umgewandelt und mit den Embeddings der zuvor umgewandelten Chunks/Dokumente verglichen.

Die Embeddings, die die größte Ähnlichkeit zur Sucheingabe aufweisen, werden dann als Text wieder in den eigentlichen Prompt als Kontext eingefügt. Die LLM formuliert die Antwort und bezieht sich dabei auf diese Kontextdaten. Somit kann man ohne große Rechenleistung ein AI-Modell erweitern. Ein umfangreiches Training und Finetuning des AI-Modells ist somit nicht notwendig und spart Aufwand und Kosten.

Wofür kann ich RAG einsetzen?

  • Frage-Antwort-Systeme (Support/Chatbot)
  • Unternehmensinterne Suche in Dokumenten und Daten
  • KI-Analyse auf Basis von Unternehmensdaten
  • Automatisierte Textgenerierung z.B. in Formularen und Eingabefeldern
  • Agentensysteme
  • und vieles mehr...

Warum sollte ich RAG und ein AI-Modell selber betreiben?

  • Datenschutz und Sicherheit: Sie müssen keine sensiblen Informationen an externe Anbieter weitergeben, was das Risiko von Datenlecks oder Missbrauch reduziert. Die Daten können in Europa/Deutschland bleiben.
  • Datenkontrolle: Interne Daten bleiben geschützt und unter Ihrer direkten Aufsicht.
  • Anpassungsfähigkeit: Optimierung am System-Prompt, am Datenimport und der Qualität der Embeddings.
  • Unabhängigkeit und Kontrolle: Unabhängig sein von API-Betreibern und deren Abo- und Kostenmodellen.
  • Planbare Kosten: Einsatz von Open-Source-AI-Modellen.

Wer bin ich?

Mein Name ist Oliver Kießler und ich bin freiberuflicher Software Entwickler aus Köln mit über 25 Jahren Berufserfahrung. Als Fullstack Software Entwickler und IT Berater übernehme ich eigenständig Projekte/Aufträge auf freiberuflicher Basis oder unterstütze Ihr Unternehmen als Teil Ihres Teams.

Umsetzung und Betrieb

Die RAG-Webanwendung wird individuell nach Ihren Anforderungen geplant und entwickelt. Sie wird auf einem oder mehreren Linux-Servern (mit GPU) laufen (On-Premise oder Cloud) und stellt eine REST JSON API zur Verfügung, die von anderen (Frontend-)Anwendungen genutzt werden kann. Die RAG-Webanwendung basiert auf Python oder Typescript, ChromaDB und Ollama. Ihre Daten und Dokumente können automatisiert per Skript aktualisiert werden und die Embeddings werden dann neu berechnet.

Als AI-Modell kann z.B. Llama 2/3, Mistral oder Phi-3 eingesetzt werden. Ein kleineres AI-Modell wird die Betriebskosten verringern (benötigt weniger RAM). Ich kann Ihnen auch bei der betrieblichen Umsetzung helfen (z.B. auch DevOps, Load Balancing / horizontale Skalierung).

Hinweis: Falls der eigene Server Betrieb des AI-Modells (LLM) jedoch nicht in Frage kommt, könnte die RAG-Anwendung auch unter Nutzung der OpenAI API betrieben werden.

Ich freue mich auf Ihre Anfrage!



Remote Kennenlerntermin buchen (kostenlos)
Remote Beratung buchen