Haziran 7, 2025

Yandex, Müzik Bilgi Seti ile Teklif Sistemlerini Geliştiriyor

Yandex, 5 milyar kullanıcı etkileşimi içeren Yandex Music Billion-Interactions Dataset'i yayınladı. Bu bilgi seti, teklif sistemleri alanında yenilikçi tahliller sunarak araştırmacıların ve startup'ların yeni algoritmaları test etmelerine imkan tanıyacak.

Yandex, müzik akış platformu Yandex Music’teki ses modülleriyle yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren ve teklif sistemleri için açık bilgi seti Yandex Music Billion-Interactions Dataset’i (Yambda) yayınladı.

Şirketten yapılan açıklamaya nazaran, Yambda, teklif sistemlerini kullanan tüm alan isimlerinde (e-ticaret, toplumsal ağlar ve kısa görüntü platformları) yeni yaklaşım ve algoritmaları test etmek için kozmik bir ölçüt olarak hizmet veriyor.

Veri seti, araştırmacıların yeni teklif algoritmalarını baz modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırıyor. Hudutlu bilgiye sahip startup’lar ölçeklendirmeden evvel Yambda kullanarak sistem oluşturmak ve test etmek için data setinden faydalanabiliyor. Böylelikle, dünya çapında iş gereksinimlerine nazaran uyarlanmış ileri teknolojilerin oluşturulması hızlandırılıyor.

Eğitim datalarının kalitesi ve ölçeği, yayın hizmetleri, toplumsal ağlar, kısa görüntü uygulamaları ve e-ticaret pazaryerleri üzere platformlarda gayeye uygun teklifleri sunabilmek için kritik kıymet taşıyor. Bununla birlikte, teklif sistemlerine yönelik araştırmalar büyük ölçekli data setlerine sonlu erişim nedeniyle büyük lisan modelleri üzere süratle ilerleyen alanların gerisinde kaldı. Tesirli teklif modelleri, ticari platformların sahip olduğu ama nadiren kamuya açık olarak paylaştığı terabaytlarca davranış verisi gerektiriyor.

Akademik ortamlarda kusursuz olan modeller gerçek dünya uygulamalarında çoklukla düşük performans sergiliyor. Teklif sistemlerini gelişmiş yapılarla entegre etme uğraşları da uygun eğitim datalarının yokluğu nedeniyle kısıtlanıyor.

Kullanıcıların nasıl etkileşime girdiğine dair değerli bilgiler sağlanıyor

Yambda, aylık yaklaşık 28 milyon kullanıcısı olan müzik akışı servisinin büyük ve anonimleştirilmiş data setini sunarak teklif sistemi zorluklarına tahlil getiriyor. Bu data seti, dinleme tecrübesini her bir kullanıcının zevkine nazaran uyarlayan My Wave teklif sistemiyle tanınan Yandex Music servisinin içerikleriyle kullanıcıların nasıl etkileşime girdiğine dair değerli bilgiler sağlıyor.

Gizliliği korumak için tüm kullanıcı ve izleme dataları, kapalılık standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş oluyor.

Veri seti Spark ve Hadoop üzere dağıtık sürece sistemlerinin yanı sıra Pandas ve Polars üzere tahlil kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor.

Yaklaşık 5 milyar, 500 milyon ve 50 milyon aktiflik olmak üzere üç farklı büyüklükte kullanılabilen Yambda data seti, farklı muhtaçlıkları ve hesaplama kapasiteleri olan araştırmacılara ve geliştiricilere hitap ediyor.

Veri seti, kıymetlendirme için aktiflik dizilerini korumak maksadıyla bilgileri vakit damgalarına nazaran bölen bir formül olan Küresel Temporal Split (GTS) kullanılıyor. Test için her kullanıcının geçmişindeki son olumlu etkileşimi kaldıran Leave-One-Out tekniğinin bilakis GTS, eğitim ve test setleri ortasındaki vakit bağlarını koparmıyor. Bu sayede, ileriye dönük dataların olmadığı gerçek dünya şartlarını taklit eden daha gerçekçi bir modelleme elde edilebiliyor.

Yeni teklif sistemi yaklaşımlarını karşılaştırmaya yönelik ölçütler sunan temel uygulamalar ortasında MostPop, DecayPop, ItemKNN, iALS, BPR, TALİHE ve SASRec yer alıyor.

Açıklamada görüşlerine yer verilen Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, öneri sistemlerinin yapısı gereği hassas datalara bağlı olduğunu belirtti.

Şirketlerin teklif sistemi data setlerini lakin kapsamlı ve yorucu bir anonimleştirme sürecinden sonra kamuya açık olarak yayınlayabildiklerine değinen Savushkin, “Bu da açık inovasyonu yavaşlatan, ağır kaynak gerektiren bir süreçtir.” sözünü kullandı.

Savushkin, Yambda’nın araştırmacıların yenilikçi hipotezlerini test etmelerini ve işletmelerin daha akıllı teklif sistemleri oluşturmalarına yardımcı olduğunu aktararak, “Sonuçta, kullanıcılar da harika şarkıyı, eseri yahut hizmeti bularak bundan yararlanıyor.” değerlendirmesinde bulundu.

Sektör başkanlarının sıkıntı kazanılan araçları ve dataları paylaştığında, yükselen bir dalga tesiri yarattığını kaydeden Savushkin, “Araştırmacılar gerçek dünya ölçütlerine kavuşur, startuplar yalnızca teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha güzel bir kullanım tecrübesinin keyfini çıkarır.” sözlerini kullandı.

Kaynak: AA / Enes Ege – İktisat

About The Author