Veri Toplama & Crawler Altyapısı

İşe yarar veri toplama bir mühendislik disiplinidir, kedi-fare oyunu değil. Okumaya izinli olduğunuz kaynaklar için crawler altyapısı kuruyorum — kendi tedarikçi ağınız, kamu verisi, lisanslı feed'ler — ve kaynak sayfa düzenini değiştirdikten sonra da çalışmaya devam edecek şekilde kuruyorum.

Beni ne zaman ararsınız

Fiyat takibi birinin elle yaptığı iş — bir insan, bir tablo ve bayat sayılar üreten bir öğleden sonra.
Tedarikçi katalogları portal ve PDF olarak geliyor; biri bunları sisteme elle yeniden giriyor.
Kamu verisine ihtiyacınız var — siciller, ihaleler, duyurular — ve tıklayarak gezmenin artık seçenek olmadığı bir ölçekte.
Crawler'larınız zaten var ama kaynak markup'ını her değiştirdiğinde kırılıyorlar ve veri bir hafta bayatlayana kadar kimse fark etmiyor.

Ne yapıyorum

Dağıtık crawler altyapısı — ürün katalogları, fiyat ve stok takibi, günde milyonlarca sayfa ölçeğinde.
Sadece çekme değil, hattın tamamı: crawl, temizlik, normalizasyon, katalog besleme — arama indeksini ve vectorizer'ı besleyen hattın aynısı.
Schema drift için kurulmuş parser'lar — on dört şema varyantlı bir gümrük API'sinden sağ çıkan savunmacı parsing yaklaşımı burada birebir geçerli.
Operasyonel disiplin: rate limiting, backoff'lu retry, proxy yönetimi ve veri bayatlamadan sizi uyandıran monitoring.
Sonradan eklenen değil, baştan kurulan uyum çerçevesi — robots.txt, kaynağın kullanım şartları ve KVKK/GDPR kısıtları tek bir istek atılmadan önce kaynak başına kontrol edilir. Anti-bot atlatma yapmıyorum; bir kaynak yasaksa bunu söylerim.

Toplama işin yarısı — verinin sonrasında neye dönüştüğü veri mühendisliği & analitik altında.

Sıfat değil, sayı

Çalıştırdığım katalog hatları tedarikçi ve partner kaynaklarından günde milyonlarca sayfa topladı, 7 milyon ürünlük bir kataloğu besledi ve hem aramayı hem vectorizer'ı elle rötuş gerektirmeden besili tuttu. Parser'lar gümrük entegrasyonuyla aynı okuldan: kaynağın değişeceğini varsay, değişince de sağ çık.

Saha notları

7 farklı şema döndüren gümrük API'si (ve hepsinden sağ çıkan parser)Bu crawler'ların üzerine kurulduğu savunmacı parsing yaklaşımı.Gürültülü OCR üzerinde konuşmacı atfı: akşam akşam tutulmuş bir defterGerçekten dağınık kaynak verisinden yapı çıkarmak.Qdrant ile hibrit arama: BM25 + dense + görsel'in kitabında olmayan tarafıToplanan verinin vardığı yer: arama indeksi.

Nereden başlarız

Discovery üç şey üretiyor: kaynak başına hukuki çerçevesiyle bir kaynak listesi — robots.txt, kullanım şartları, KVKK/GDPR durumu — bir hacim projeksiyonu ve bir hat tasarımı. Bir kaynak temiz toplanamıyorsa, daha tek satır kod yokken dokümanda yazıyor.

Veri kaynaklarınızı anlatın