Yandex udostępnił swój zbiór danych Yambda o otwartym kodzie źródłowym zawierający informacje o preferencjach słuchaczy muzyki do wykorzystania w tworzeniu usługi strumieniowego przesyłania dźwięku podobnej do Spotify z personalizacją list odtwarzania opartą na sztucznej inteligencji.
Usługi streamingowe, takie jak Spotify, Tidal i Qobuz, wykorzystują algorytmy oprogramowania lub modele sztucznej inteligencji do tworzenia list odtwarzania w oparciu o indywidualne preferencje. Usługi te zazwyczaj nie udostępniają swojego kodu ani modeli, ponieważ ich wyjątkowa zdolność do automatycznego odtwarzania utworów, które lubią słuchacze, jest uważana za tajemnicę handlową ich sukcesu.
Yandex w ciągu dziesięciu miesięcy zebrał dane w postaci 4,79 miliarda interakcji użytkowników z 9,39 milionami utworów muzycznych z puli 28 milionów miesięcznych użytkowników Yandex Music użytkowników. Obejmuje to kluczowe informacje zwrotne od słuchaczy Yandex Music - czego wybierają do słuchania, a także ich upodobania i antypatie. Wszystkie interakcje są znakowane czasem w celu zwiększenia precyzji.
Zbiór danych można pobrać w rozmiarach pięciu miliardów (1 milion użytkowników), pięciuset milionów (100 000 użytkowników) i pięćdziesięciu milionów (10 000 użytkowników) modeli zdarzeń, przy czym maksymalny wymaga co najmniej 85 GB przestrzeni dyskowej. Zbiór danych jest przechowywany w formacie Apache Parquet formacie Apache Parquet, zorientowanym na kolumny formacie pliku danych dla wygodnej analizy i badań.
Czytelnicy mogą podarować streaming muzyki dzięki karcie podarunkowej Spotify.