Der BeeAI Security Analyst
Während CLI-Agenten leistungsfähig sind, ist manchmal ein visuelles Dashboard unerlässlich, um komplexe, mehrstufige Denkprozesse zu überwachen. Der BeeAI Analyst kombiniert die rohe Kraft lokaler LLMs mit einer reaktiven FastAPI-Weboberfläche.
Unten sehen Sie eine Simulation der tatsächlichen Weboberfläche. Beobachten Sie, wie der Agent ein Sicherheitsmandat auf hoher Ebene erhält, seine Recherche mit dem ThinkTool plant, Informationen über DuckDuckGo und Wikipedia sammelt und einen strategischen Abschlussbericht erstellt.
🛡️ BeeAI Analyst (FastAPI)
Dieser "Glass Box"-Ansatz ermöglicht es Operatoren, den Schlussfolgerungen der KI zu vertrauen, indem sie die Quellen (Wikipedia, DuckDuckGo) und die Denkschritte (ThinkTool) überprüfen, die zu diesen Ergebnissen geführt haben.
Unter der Haube
Der BeeAI Analyst ist auf Leistung und Datenschutz ausgelegt. Im Gegensatz zu cloudbasierten Agenten läuft dieser gesamte Stack lokal auf Ihrer Maschine, sodass keine sensiblen Daten Ihr Netzwerk verlassen.
1. FastAPI & Async Architektur
Das Backend wird von FastAPI und Uvicorn betrieben und nutzt Pythons asyncio, um mehrere gleichzeitige Verbindungen ohne Blockierung zu verarbeiten. Wir verwenden Server-Sent Events (SSE), um den Denkprozess des Agenten in Echtzeit an das Frontend zu streamen und dem Benutzer sofortiges Feedback zu geben.
2. Ressourcenmanagement mit Semaphoren
Das lokale Ausführen großer Sprachmodelle (LLMs) ist GPU-intensiv. Um "Out-Of-Memory" (OOM) Fehler zu vermeiden, implementiert das System ein Async Semaphore (gpu_semaphore). Dies fungiert als Verkehrskontrolle und stellt sicher, dass immer nur eine schwere Inferenzaufgabe die GPU belegt, während andere Anfragen effizient in eine Warteschlange gestellt werden.
3. Das BeeAI Framework
Im Kern liegt das BeeAI Framework. Es orchestriert den Lebenszyklus des Agenten:
- ThinkTool: Ermöglicht dem Agenten, innezuhalten und seine nächsten Schritte zu planen.
- Research Tools: Integration mit DuckDuckGo, Wikipedia und OpenMeteo für Daten aus der realen Welt.
- Memory: Unbegrenzter Speicher ermöglicht es dem Agenten, den Kontext während der gesamten Sitzung beizubehalten.
4. Lokales LLM via Ollama
Die Intelligenz wird von Ollama bereitgestellt, das ein speziell abgestimmtes gemma-agent Modell ausführt. Durch die Verwendung des OpenAI-kompatiblen Endpunkts können wir die zugrunde liegenden Modelle (Llama 3, Mistral, Gemma) austauschen, ohne eine einzige Zeile Anwendungscode zu ändern.
5. RAG & Document Intelligence mit Docling
Der Analyst verfügt über fortschrittliche Retrieval-Augmented Generation (RAG) Fähigkeiten. Benutzer können verschiedene Dateiformate (PDF, DOCX, Bilder) hochladen, die mit Docling für eine hochwertige Textextraktion verarbeitet werden. Die Inhalte werden anschließend partitioniert und in einer lokalen Vektordatenbank gespeichert, was es dem Agenten ermöglicht, kontextbezogene Antworten basierend auf Ihren privaten Dokumenten zu geben.
Der vollständige Quellcode, einschließlich des FastAPI-Servers, der Agentenkonfiguration und der Frontend-Vorlagen, ist auf GitHub verfügbar.
Auf GitHub ansehen