Veri Toplama & Crawler Altyapısı
İşe yarar veri toplama bir mühendislik disiplinidir, kedi-fare oyunu değil. Okumaya izinli olduğunuz kaynaklar için crawler altyapısı kuruyorum — kendi tedarikçi ağınız, kamu verisi, lisanslı feed'ler — ve kaynak sayfa düzenini değiştirdikten sonra da çalışmaya devam edecek şekilde kuruyorum.
Beni ne zaman ararsınız
- Fiyat takibi birinin elle yaptığı iş — bir insan, bir tablo ve bayat sayılar üreten bir öğleden sonra.
- Tedarikçi katalogları portal ve PDF olarak geliyor; biri bunları sisteme elle yeniden giriyor.
- Kamu verisine ihtiyacınız var — siciller, ihaleler, duyurular — ve tıklayarak gezmenin artık seçenek olmadığı bir ölçekte.
- Crawler'larınız zaten var ama kaynak markup'ını her değiştirdiğinde kırılıyorlar ve veri bir hafta bayatlayana kadar kimse fark etmiyor.
Ne yapıyorum
- Dağıtık crawler altyapısı — ürün katalogları, fiyat ve stok takibi, günde milyonlarca sayfa ölçeğinde.
- Sadece çekme değil, hattın tamamı: crawl, temizlik, normalizasyon, katalog besleme — arama indeksini ve vectorizer'ı besleyen hattın aynısı.
- Schema drift için kurulmuş parser'lar — on dört şema varyantlı bir gümrük API'sinden sağ çıkan savunmacı parsing yaklaşımı burada birebir geçerli.
- Operasyonel disiplin: rate limiting, backoff'lu retry, proxy yönetimi ve veri bayatlamadan sizi uyandıran monitoring.
- Sonradan eklenen değil, baştan kurulan uyum çerçevesi — robots.txt, kaynağın kullanım şartları ve KVKK/GDPR kısıtları tek bir istek atılmadan önce kaynak başına kontrol edilir. Anti-bot atlatma yapmıyorum; bir kaynak yasaksa bunu söylerim.
Toplama işin yarısı — verinin sonrasında neye dönüştüğü veri mühendisliği & analitik altında.
Sıfat değil, sayı
Çalıştırdığım katalog hatları tedarikçi ve partner kaynaklarından günde milyonlarca sayfa topladı, 7 milyon ürünlük bir kataloğu besledi ve hem aramayı hem vectorizer'ı elle rötuş gerektirmeden besili tuttu. Parser'lar gümrük entegrasyonuyla aynı okuldan: kaynağın değişeceğini varsay, değişince de sağ çık.
Saha notları
Nereden başlarız
Discovery üç şey üretiyor: kaynak başına hukuki çerçevesiyle bir kaynak listesi — robots.txt, kullanım şartları, KVKK/GDPR durumu — bir hacim projeksiyonu ve bir hat tasarımı. Bir kaynak temiz toplanamıyorsa, daha tek satır kod yokken dokümanda yazıyor.