Özgür Işık Damar
HizmetlerHizmet

Hibrit Arama & Retrieval

Sonuç döndüren arama ile bulan arama aynı şey değil. İkisinin arasındaki boşluk, katalogların sessizce ciro kaybettiği yer — ve ölçülebilir olduğu için düzeltilebilir.

Beni ne zaman ararsınız

  • Arama "çalışıyor" — hata yok, sonuç dönüyor — ama müşteri istediği ürünü yazıyor ve stoğunuzda olan ürünleri bulamıyor.
  • Bir vektör veritabanı seçiyor ya da ayarlıyorsunuz ve internetteki benchmark'lar sizin verinize hiç benzemiyor.
  • Kataloğunuz çok dilli — Türkçe dahil — ve tokenizasyon ya da embedding davranışı dokümantasyonda hiç geçmeyen şekillerde kırılıyor.
  • Görselle arama istiyorsunuz ama CLIP mi, SigLIP mi, başka bir şey mi kataloğunuza uyar, ekipte kimse söyleyemiyor.

Ne yapıyorum

  • Hibrit retrieval — BM25, dense vektör ve görsel embedding RRF ile birleştiriliyor; k parametresi varsayılanda bırakılmak yerine sizin sorgularınızla ayarlanıyor.
  • Reranker stratejisi — cross-encoder'ın gecikme maliyetini ne zaman karşıladığını, sade BM25'in ne zaman zaten kazandığını ölçmek.
  • Kanıta dayalı embedding modeli seçimi — CLIP ile SigLIP'i Türkçe ağırlıklı bir katalogda kafa kafaya yarıştırdım, makbuzları duruyor.
  • Eval altyapısı kurulumu — gerçek loglarınızdan etiketlenmiş bir sorgu seti; böylece "daha iyi" toplantıdaki bir fikir değil, nDCG ve recall oluyor.

Sıfat değil, sayı

Nova'nın kataloğu: 7 milyon ürün, RRF ile birleştirilen üç retrieval sinyali, SigLIP ile görsel arama. nDCG@10 gerçek sorgu dağılımıyla ölçülerek 0.61'den 0.74'e çıktı — ve her ayar kararını tartışılır olmaktan çıkarıp savunulur yapan şey eval altyapısıydı.

Saha notları

Nereden başlarız

Discovery: mevcut aramanızı gerçek sorgu dağılımınızla değerlendiriyorum — loglardan örnek sorgular, etiketlenmiş sonuçlar, ölçüm. Karşılığında nerede başarısız olduğuna dair sayılar ve modaya göre değil, etkiye göre sıralanmış bir düzeltme listesi alıyorsunuz.