Samsung wprowadza TRUEBench – porównywarkę rzeczywistej produktywności AI

SAMSUNG

Samsung wprowadza TRUEBench – porównywarkę rzeczywistej produktywności AI

Samsung ogłasza wprowadzenie TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), autorskiej porównywarki opracowanej przez dział Samsung Research, przeznaczonej do oceny produktywności sztucznej inteligencji w rzeczywistych warunkach pracy.

Porównywarka mierzy sprawność dużych modeli językowych (LLM) w kontekście generowania treści, analizy danych, streszczania i tłumaczenia tekstów. System obejmuje 10 kategorii i 46 podkategorii, operując na 2485 zestawach testowych w 12 językach, by odzwierciedlić realne zadania biurowe i wielojęzyczne wymagania.
W odróżnieniu od istniejących benchmarków, które skupiają się głównie na języku angielskim i pojedynczych zapytaniach, TRUEBench uwzględnia kontekst dialogów, wielojęzyczność i kompleksowość scenariuszy stosowanych w środowiskach korporacyjnych. Automatyczna ocena opiera się na połączeniu algorytmów sztucznej inteligencji i kryteriów przygotowanych przez ekspertów, przy czym system iteracyjnie udoskonala kryteria, minimalizując subiektywne błędy. Próbki danych i wyniki modeli są dostępne na platformie open source Hugging Face, co pozwala użytkownikom porównywać modele AI i analizować szybkość oraz efektywność odpowiedzi.
Według Paula (Kyungwhoon) Cheuna, dyrektora ds. technologii w Samsung Research, TRUEBench ma szansę wyznaczyć nowe standardy oceny produktywności AI i wzmocnić pozycję Samsunga jako lidera w dziedzinie sztucznej inteligencji.

2025-10-07

Powrót Do góry

SAMSUNG