Data Engineering & Analytik

Den meisten Unternehmen fehlen keine Daten — ihnen fehlt die Veredelung. Jede der Pipelines unten existiert, weil ein Produktionssystem sie gebraucht hat, nicht weil ein Konferenzvortrag sie wollte.

Wann Sie mich anrufen

Sie haben Jahre an Daten und entscheiden trotzdem aus dem Bauch, weil nichts hinter der Datenbank vertrauenswürdig ist.
Ihr LLM- oder RAG-Projekt steckt genau dort fest, wo die meisten feststecken: Die Daten waren nicht sauber, nicht gechunkt und nicht verifizierbar genug für Retrieval.
Suche oder Empfehlungen brauchen eine Embedding-Pipeline, und niemand im Team hat eine jenseits eines Notebooks betrieben.
Auf Ihrem Marktplatz läuft Betrug oder Preismanipulation, und Ihre aktuellen Reports können es nicht sehen.

Was ich mache

Embedding- & Vektor-Infrastruktur — eine Produktions-Vektorisierungspipeline über Produktdaten: 512-dimensionale Text- und 512-dimensionale Bildvektoren plus BM25-Sparse-Signale in Qdrant, über 7 Millionen Produkte.
LLM-fertige Datenaufbereitung und RAG-Pipelines — Chunking-Strategie, Qualitätsfilter und Verifikation auf Claim-Ebene, wie ich sie für ein parlamentarisches NLP-Archiv gebaut habe.
Anomalieerkennung — marktübergreifende Betrugs- und Preismanipulations-Erkennung mit graphbasierten Beziehungsmodellen und Scoring, das ein Mensch prüfen kann, keine Blackbox.
Empfehlungssysteme — in Echtzeit, Reinforcement-Learning-basiert, mit angeschlossener MLOps-Schleife: Training, Deployment, Monitoring.
ETL/ELT-Pipeline-Design — von den Quellen ins Warehouse, mit Schema-Versionierung und Data Contracts, auf einem Data-Mesh-Setup auf die harte Tour gelernt.
Datenqualität und Drift-Monitoring — automatische Prüfungen, die verhindern, dass Produktionsgenauigkeit leise verfällt.
Testdaten-Engineering — aus Produktion gesampelte, DSGVO/KVKK-konforme Testdatenbanken mit Sequence-Offsets, damit Staging sich endlich wie Prod verhält.
Reporting und Observability — Metrik-Dashboards und Funnel-Analysen, die Fragen beantworten, statt sie zu dekorieren.

Wenn der Zweck der Embedding-Pipeline Produktsuche ist, hat dieses Ende des Problems eine eigene Seite: Hybrid Search & Retrieval.

Zahlen statt Adjektive

Die Vektorisierungspipeline hinter Novas Katalog bettet 7 Millionen Produkte in Qdrant ein — Text mit 512 Dimensionen, Bilder mit 512, BM25-Sparse daneben — und genau darauf läuft die Hybrid-Suche. Die Verifikationsschicht aus dem Parlaments-NLP-Projekt prüft Behauptungen auf Claim-Ebene gegen Quellen, denn die Alternative ist beinahe passiert: Ein Journalist hätte fast eine Halluzination zitiert.

Notizen aus der Praxis

Hybrid-Suche mit Qdrant: was über BM25 + Dense + Bild keiner sagtWas die Embedding-Pipeline füttert.CLIP vs SigLIP für einen türkischen Produktkatalog: eine Marken-Affinitäts-AblationEmbedding-Modelle per Messung auswählen, nicht per Vorliebe.Sprecherzuordnung auf verrauschtem OCR: ein Notizbuch von Abend zu AbendDatenbereinigung, wo die Daten sich wehren.Die Woche, in der ein LLM eine politische Position halluzinierte — und ein Journalist sie fast zitiert hätteWarum Verifikation auf Claim-Ebene eine Pipeline-Stufe ist, keine Hoffnung.

Wo wir anfangen

Die Discovery liefert ein Dateninventar, eine Qualitätskarte und eine Prioritätsreihenfolge: welcher Datensatz welche Entscheidung freischaltet, was es kostet, ihn vertrauenswürdig zu machen, und was Sie bewusst ignorieren sollten. Wenn der ehrliche Befund lautet, dass Sie vor jedem Machine Learning erst drei SQL-Views brauchen, steht genau das im Dokument.

Erzählen Sie mir von Ihren Daten