Özgür Işık Damar
HizmetlerHizmet

Veri Toplama & Crawler Altyapısı

İşe yarar veri toplama bir mühendislik disiplinidir, kedi-fare oyunu değil. Okumaya izinli olduğunuz kaynaklar için crawler altyapısı kuruyorum — kendi tedarikçi ağınız, kamu verisi, lisanslı feed'ler — ve kaynak sayfa düzenini değiştirdikten sonra da çalışmaya devam edecek şekilde kuruyorum.

Beni ne zaman ararsınız

  • Fiyat takibi birinin elle yaptığı iş — bir insan, bir tablo ve bayat sayılar üreten bir öğleden sonra.
  • Tedarikçi katalogları portal ve PDF olarak geliyor; biri bunları sisteme elle yeniden giriyor.
  • Kamu verisine ihtiyacınız var — siciller, ihaleler, duyurular — ve tıklayarak gezmenin artık seçenek olmadığı bir ölçekte.
  • Crawler'larınız zaten var ama kaynak markup'ını her değiştirdiğinde kırılıyorlar ve veri bir hafta bayatlayana kadar kimse fark etmiyor.

Ne yapıyorum

  • Dağıtık crawler altyapısı — ürün katalogları, fiyat ve stok takibi, günde milyonlarca sayfa ölçeğinde.
  • Sadece çekme değil, hattın tamamı: crawl, temizlik, normalizasyon, katalog besleme — arama indeksini ve vectorizer'ı besleyen hattın aynısı.
  • Schema drift için kurulmuş parser'lar — on dört şema varyantlı bir gümrük API'sinden sağ çıkan savunmacı parsing yaklaşımı burada birebir geçerli.
  • Operasyonel disiplin: rate limiting, backoff'lu retry, proxy yönetimi ve veri bayatlamadan sizi uyandıran monitoring.
  • Sonradan eklenen değil, baştan kurulan uyum çerçevesi — robots.txt, kaynağın kullanım şartları ve KVKK/GDPR kısıtları tek bir istek atılmadan önce kaynak başına kontrol edilir. Anti-bot atlatma yapmıyorum; bir kaynak yasaksa bunu söylerim.

Toplama işin yarısı — verinin sonrasında neye dönüştüğü veri mühendisliği & analitik altında.

Sıfat değil, sayı

Çalıştırdığım katalog hatları tedarikçi ve partner kaynaklarından günde milyonlarca sayfa topladı, 7 milyon ürünlük bir kataloğu besledi ve hem aramayı hem vectorizer'ı elle rötuş gerektirmeden besili tuttu. Parser'lar gümrük entegrasyonuyla aynı okuldan: kaynağın değişeceğini varsay, değişince de sağ çık.

Saha notları

Nereden başlarız

Discovery üç şey üretiyor: kaynak başına hukuki çerçevesiyle bir kaynak listesi — robots.txt, kullanım şartları, KVKK/GDPR durumu — bir hacim projeksiyonu ve bir hat tasarımı. Bir kaynak temiz toplanamıyorsa, daha tek satır kod yokken dokümanda yazıyor.