Strona główna Technologia Czy Xai kłamał o testach porównawczych Grok 3?

Czy Xai kłamał o testach porównawczych Grok 3?

26
0

Debaty na temat testów porównawczych AI – i ich zgłaszania przez AI Labs – rozlewają się na widok publiczny.

W tym tygodniu pracownik Openai oskarżony Elon Musk’s AI Company, XAI, publikowania wprowadzających w błąd wyników porównawczych dla swojego najnowszego modelu AI, Grok 3. Jeden z współzałożycieli XAI, Igor Babushkin, nalegał że firma miała prawo.

Prawda leży gdzieś pomiędzy.

W Opublikuj na blogu XAIFirma opublikowała wykres pokazujący wyniki Grok 3 na Aime 2025, zbiór trudnych pytań matematycznych z niedawnego egzaminu matematycznego Invitational. Niektórzy eksperci mają zakwestionowany ważność Aime jako punkt odniesienia AI. Niemniej jednak AIME 2025 i starsze wersje testu są powszechnie stosowane do zbadania zdolności matematycznej modelu.

Wykres Xai pokazał dwa warianty Grok 3, Grok 3 Reasoning Beta i Grok 3 Mini rozumowanie, pokonując najlepszy dostępny model Openai, O3-Mini-High, na AIME 2025. Ale pracownicy Openai na X szybko zauważyli, że wykres Xai wykres XAI. Nie uwzględnił wyniku AIME 2025 O3-Mini-High w „Cons@64”.

Co to jest Cons@64, możesz zapytać? Cóż, jest to skrót od „Consensus@64” i zasadniczo daje model 64 próbuje odpowiedzieć na każdy problem w odniesieniu i przyjmuje odpowiedzi wygenerowane najczęściej jako ostateczne odpowiedzi. Jak możesz sobie wyobrazić, Cons@64 ma tendencję do zwiększenia wyników modeli, a pominięcie go z wykresu może sprawić, że jeden model przewyższył inny, gdy w rzeczywistości tak nie jest.

Grok 3 rozumowanie beta i Grok 3 Mini rozumowanie dla Aime 2025 pod numerem „@1”-co oznacza, że ​​pierwszy wynik, jaki modele osiągnęły na odległości-spadają poniżej wyniku O3-Mini-High. Grok 3 Reasoning Beta również szlak również za modelem O1 Openai na „Medium” Computing. Jednak XAI jest Reklama Grok 3 Jako „najmądrzejsza sztuczna inteligencja świata”.

Babushkin kłócił się o x że Openai w przeszłości publikował podobnie mylące wykresy porównawcze – choć wykresy porównujące wydajność własnych modeli. Bardziej neutralna impreza w debacie opracowała bardziej „dokładny” wykres pokazujący prawie każdy model w Cons@64:

Ale jako badacz AI Nathan Lambert wskazał w pościeByć może najważniejszą metryką pozostaje tajemnica: koszt obliczeniowy (i pieniężny), jaki potrzebował dla każdego modelu, aby osiągnąć swój najlepszy wynik. To po prostu pokazuje, jak mało większości testów testowych AI komunikuje o ograniczeniach modeli – i ich mocnych stronach.



Source link

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj