Datenerfassung & Crawler-Infrastruktur

Nützliche Datenerfassung ist eine Ingenieursdisziplin, kein Katz-und-Maus-Spiel. Ich baue Crawler-Infrastruktur für Quellen, die Sie lesen dürfen — Ihr eigenes Lieferantennetz, öffentliche Daten, lizenzierte Feeds — und ich baue sie so, dass sie weiterläuft, nachdem die Quelle ihr Layout geändert hat.

Wann Sie mich anrufen

Preisbeobachtung ist der manuelle Job einer Person — ein Mensch, eine Tabelle und ein Nachmittag, der veraltete Zahlen produziert.
Lieferantenkataloge kommen als Portale und PDFs, und jemand tippt sie von Hand in Ihr System.
Sie brauchen öffentliche Daten — Register, Ausschreibungen, Bekanntmachungen — in einem Umfang, bei dem Durchklicken keine Option mehr ist.
Sie haben bereits Crawler, aber sie brechen bei jeder Markup-Änderung, und niemand merkt es, bis die Daten eine Woche alt sind.

Was ich mache

Verteilte Crawler-Infrastruktur — Produktkataloge, Preis- und Bestandsmonitoring im Maßstab von Millionen Seiten pro Tag.
Die ganze Pipeline, nicht nur das Abrufen: crawlen, bereinigen, normalisieren, den Katalog füttern — dieselbe Pipeline, die den Suchindex und den Vectorizer versorgt hat.
Parser, die für Schema-Drift gebaut sind — der defensive Parsing-Ansatz, der eine Zoll-API mit vierzehn Schema-Varianten überlebt hat, gilt hier eins zu eins.
Operative Disziplin: Rate Limiting, Retry mit Backoff, Proxy-Verwaltung und Monitoring, das Sie weckt, bevor die Daten veralten.
Ein Compliance-Rahmen von Anfang an, nicht als Nachtrag — robots.txt, die Nutzungsbedingungen der Quelle und DSGVO/KVKK-Auflagen werden pro Quelle geprüft, bevor ein einziger Request rausgeht. Anti-Bot-Umgehung baue ich nicht, und ich sage Ihnen, wenn eine Quelle tabu ist.

Sammeln ist die halbe Arbeit — was aus den Daten danach wird, steht unter Data Engineering & Analytik.

Zahlen statt Adjektive

Die Katalog-Pipelines, die ich betrieben habe, sammelten aus Lieferanten- und Partnerquellen Millionen Seiten pro Tag, fütterten einen Katalog mit 7 Millionen Produkten und hielten Suche und Vectorizer ohne manuelle Nacharbeit versorgt. Die Parser kommen aus derselben Schule wie die Zollintegration: Geh davon aus, dass die Quelle sich ändert — und überlebe es, wenn sie es tut.

Notizen aus der Praxis

Die Zoll-API, die 7 verschiedene Schemas zurückgab (und der Parser, der alle überlebt hat)Der defensive Parsing-Ansatz, auf dem diese Crawler stehen.Sprecherzuordnung auf verrauschtem OCR: ein Notizbuch von Abend zu AbendStruktur aus wirklich unordentlichen Quelldaten ziehen.Hybrid-Suche mit Qdrant: was über BM25 + Dense + Bild keiner sagtWo die gesammelten Daten landen: im Suchindex.

Wo wir anfangen

Die Discovery liefert drei Dinge: eine Quellenliste mit rechtlichem Rahmen pro Quelle — robots.txt, Nutzungsbedingungen, DSGVO/KVKK-Status —, eine Volumenprojektion und ein Pipeline-Design. Wenn eine Quelle nicht sauber erfasst werden kann, steht das im Dokument, bevor irgendein Code existiert.

Erzählen Sie mir von Ihren Datenquellen