Veri Mühendisliği & Analitik

Çoğu şirketin veri eksiği yok — rafine etme eksiği var. Aşağıdaki hatların hepsi bir production sistemi ihtiyaç duyduğu için var; bir konferans konuşması istediği için değil.

Beni ne zaman ararsınız

Yıllardır veri birikiyor ama kararlar hâlâ hisle veriliyor; çünkü veritabanından sonraki hiçbir katmana güvenilmiyor.
LLM ya da RAG projeniz çoğunun tıkandığı yerde tıkandı: veri, üzerinde retrieval yapılacak kadar temiz, parçalanmış ve doğrulanabilir değildi.
Arama ya da öneri için embedding hattı gerekiyor ve ekipte bunu notebook ötesinde çalıştırmış kimse yok.
Pazaryerinizde fraud ya da fiyat manipülasyonu dönüyor ve mevcut raporlar bunu göremiyor.

Ne yapıyorum

Embedding & vektör altyapısı — ürün verisi üzerinde production vektörizasyon hattı: Qdrant'ta 512 boyutlu metin ve 512 boyutlu görsel vektörleri artı BM25 sparse sinyaller, 7 milyon ürün genelinde.
LLM'e hazır veri hazırlığı ve RAG hatları — chunking stratejisi, kalite filtreleme ve parlamento NLP arşivi için kurduğum türden claim seviyesinde doğrulama.
Anomali tespiti — graph tabanlı ilişki modelleriyle pazarlar arası fraud ve fiyat manipülasyonu tespiti; kara kutu değil, insanın denetleyebildiği skorlama.
Öneri sistemleri — gerçek zamanlı, pekiştirmeli öğrenme tabanlı; MLOps döngüsü takılı: eğitim, deploy, izleme.
ETL/ELT hattı tasarımı — kaynaklardan ambara; schema versiyonlama ve data contract'larla, bir data mesh kurulumunda zor yoldan öğrenilmiş haliyle.
Veri kalitesi ve drift izleme — production doğruluğunun sessizce çürümesini engelleyen otomatik kontroller.
Test verisi mühendisliği — production'dan örneklenmiş, KVKK uyumlu, sequence-offset'li test veritabanları; staging nihayet prod gibi davransın diye.
Raporlama ve gözlemlenebilirlik — soruları süslemek yerine cevaplayan metrik panoları ve funnel analizi.

Embedding hattının amacı ürün aramaysa, problemin o ucunun kendi sayfası var: hibrit arama & retrieval.

Sıfat değil, sayı

Nova kataloğunun arkasındaki vektörizasyon hattı 7 milyon ürünü Qdrant'a gömüyor — metin 512 boyut, görsel 512, yanında BM25 sparse — ve hibrit arama tam olarak bunun üzerinde koşuyor. Parlamento NLP projesindeki doğrulama katmanı iddiaları kaynaklarla claim seviyesinde karşılaştırıyor; çünkü aksi zaten neredeyse yaşandı: bir gazeteci az kalsın bir halüsinasyonu alıntılıyordu.

Saha notları

Qdrant ile hibrit arama: BM25 + dense + görsel'in kitabında olmayan tarafıEmbedding hattının beslediği yer.Türkçe bir ürün kataloğu için CLIP vs SigLIP: bir marka-yakınlığı ablasyonuEmbedding modelini tercihle değil, ölçerek seçmek.Gürültülü OCR üzerinde konuşmacı atfı: akşam akşam tutulmuş bir defterVerinin direndiği yerde veri temizliği.Bir LLM'in siyasi pozisyon halüsine ettiği hafta — ve bir gazetecinin az kalsın bunu alıntılayacağıClaim seviyesinde doğrulamanın neden temenni değil, hat aşaması olduğu.

Nereden başlarız

Discovery'nin çıktısı bir veri envanteri, bir kalite haritası ve bir öncelik sırası: hangi veri seti hangi kararın kilidini açıyor, güvenilir hale getirmek neye mal oluyor ve neyi bilerek görmezden gelmeli. Dürüst bulgu "herhangi bir makine öğrenmesinden önce üç SQL view lazım" ise dokümanda o yazıyor.

Verinizi anlatın