HizmetlerHizmet
Hibrit Arama & Retrieval
Sonuç döndüren arama ile bulan arama aynı şey değil. İkisinin arasındaki boşluk, katalogların sessizce ciro kaybettiği yer — ve ölçülebilir olduğu için düzeltilebilir.
Beni ne zaman ararsınız
- Arama "çalışıyor" — hata yok, sonuç dönüyor — ama müşteri istediği ürünü yazıyor ve stoğunuzda olan ürünleri bulamıyor.
- Bir vektör veritabanı seçiyor ya da ayarlıyorsunuz ve internetteki benchmark'lar sizin verinize hiç benzemiyor.
- Kataloğunuz çok dilli — Türkçe dahil — ve tokenizasyon ya da embedding davranışı dokümantasyonda hiç geçmeyen şekillerde kırılıyor.
- Görselle arama istiyorsunuz ama CLIP mi, SigLIP mi, başka bir şey mi kataloğunuza uyar, ekipte kimse söyleyemiyor.
Ne yapıyorum
- Hibrit retrieval — BM25, dense vektör ve görsel embedding RRF ile birleştiriliyor; k parametresi varsayılanda bırakılmak yerine sizin sorgularınızla ayarlanıyor.
- Reranker stratejisi — cross-encoder'ın gecikme maliyetini ne zaman karşıladığını, sade BM25'in ne zaman zaten kazandığını ölçmek.
- Kanıta dayalı embedding modeli seçimi — CLIP ile SigLIP'i Türkçe ağırlıklı bir katalogda kafa kafaya yarıştırdım, makbuzları duruyor.
- Eval altyapısı kurulumu — gerçek loglarınızdan etiketlenmiş bir sorgu seti; böylece "daha iyi" toplantıdaki bir fikir değil, nDCG ve recall oluyor.
Sıfat değil, sayı
Nova'nın kataloğu: 7 milyon ürün, RRF ile birleştirilen üç retrieval sinyali, SigLIP ile görsel arama. nDCG@10 gerçek sorgu dağılımıyla ölçülerek 0.61'den 0.74'e çıktı — ve her ayar kararını tartışılır olmaktan çıkarıp savunulur yapan şey eval altyapısıydı.
Saha notları
Qdrant ile hibrit arama: BM25 + dense + görsel'in kitabında olmayan tarafı7 milyon ürünlük indeksin arkasındaki mimari.Production'da RRF ile altı ay: k=60'ın sana söylemediğiVarsayılan k değerinin doğru yaptıkları — ve yapamadıkları.Türkçe bir ürün kataloğu için CLIP vs SigLIP: bir marka-yakınlığı ablasyonuEmbedding seçimini tercihle değil, ölçümle kapatmak.BM25'in cross-encoder'ımı yendiği hafta — ve reranker'ı yine de neden tuttumEn basit ranker'ın kazandığı sorgu sınıfı.
Nereden başlarız
Discovery: mevcut aramanızı gerçek sorgu dağılımınızla değerlendiriyorum — loglardan örnek sorgular, etiketlenmiş sonuçlar, ölçüm. Karşılığında nerede başarısız olduğuna dair sayılar ve modaya göre değil, etkiye göre sıralanmış bir düzeltme listesi alıyorsunuz.