Datenerfassung & Crawler-Infrastruktur
Nützliche Datenerfassung ist eine Ingenieursdisziplin, kein Katz-und-Maus-Spiel. Ich baue Crawler-Infrastruktur für Quellen, die Sie lesen dürfen — Ihr eigenes Lieferantennetz, öffentliche Daten, lizenzierte Feeds — und ich baue sie so, dass sie weiterläuft, nachdem die Quelle ihr Layout geändert hat.
Wann Sie mich anrufen
- Preisbeobachtung ist der manuelle Job einer Person — ein Mensch, eine Tabelle und ein Nachmittag, der veraltete Zahlen produziert.
- Lieferantenkataloge kommen als Portale und PDFs, und jemand tippt sie von Hand in Ihr System.
- Sie brauchen öffentliche Daten — Register, Ausschreibungen, Bekanntmachungen — in einem Umfang, bei dem Durchklicken keine Option mehr ist.
- Sie haben bereits Crawler, aber sie brechen bei jeder Markup-Änderung, und niemand merkt es, bis die Daten eine Woche alt sind.
Was ich mache
- Verteilte Crawler-Infrastruktur — Produktkataloge, Preis- und Bestandsmonitoring im Maßstab von Millionen Seiten pro Tag.
- Die ganze Pipeline, nicht nur das Abrufen: crawlen, bereinigen, normalisieren, den Katalog füttern — dieselbe Pipeline, die den Suchindex und den Vectorizer versorgt hat.
- Parser, die für Schema-Drift gebaut sind — der defensive Parsing-Ansatz, der eine Zoll-API mit vierzehn Schema-Varianten überlebt hat, gilt hier eins zu eins.
- Operative Disziplin: Rate Limiting, Retry mit Backoff, Proxy-Verwaltung und Monitoring, das Sie weckt, bevor die Daten veralten.
- Ein Compliance-Rahmen von Anfang an, nicht als Nachtrag — robots.txt, die Nutzungsbedingungen der Quelle und DSGVO/KVKK-Auflagen werden pro Quelle geprüft, bevor ein einziger Request rausgeht. Anti-Bot-Umgehung baue ich nicht, und ich sage Ihnen, wenn eine Quelle tabu ist.
Sammeln ist die halbe Arbeit — was aus den Daten danach wird, steht unter Data Engineering & Analytik.
Zahlen statt Adjektive
Die Katalog-Pipelines, die ich betrieben habe, sammelten aus Lieferanten- und Partnerquellen Millionen Seiten pro Tag, fütterten einen Katalog mit 7 Millionen Produkten und hielten Suche und Vectorizer ohne manuelle Nacharbeit versorgt. Die Parser kommen aus derselben Schule wie die Zollintegration: Geh davon aus, dass die Quelle sich ändert — und überlebe es, wenn sie es tut.
Notizen aus der Praxis
Wo wir anfangen
Die Discovery liefert drei Dinge: eine Quellenliste mit rechtlichem Rahmen pro Quelle — robots.txt, Nutzungsbedingungen, DSGVO/KVKK-Status —, eine Volumenprojektion und ein Pipeline-Design. Wenn eine Quelle nicht sauber erfasst werden kann, steht das im Dokument, bevor irgendein Code existiert.