Debaty na temat testów porównawczych AI – i ich zgłaszania przez AI Labs – rozlewają się na widok publiczny.
W tym tygodniu pracownik Openai oskarżony Elon Musk’s AI Company, XAI, publikowania wprowadzających w błąd wyników porównawczych dla swojego najnowszego modelu AI, Grok 3. Jeden z współzałożycieli XAI, Igor Babushkin, nalegał że firma miała prawo.
Prawda leży gdzieś pomiędzy.
W Opublikuj na blogu XAIFirma opublikowała wykres pokazujący wyniki Grok 3 na Aime 2025, zbiór trudnych pytań matematycznych z niedawnego egzaminu matematycznego Invitational. Niektórzy eksperci mają zakwestionowany ważność Aime jako punkt odniesienia AI. Niemniej jednak AIME 2025 i starsze wersje testu są powszechnie stosowane do zbadania zdolności matematycznej modelu.
Wykres Xai pokazał dwa warianty Grok 3, Grok 3 Reasoning Beta i Grok 3 Mini rozumowanie, pokonując najlepszy dostępny model Openai, O3-Mini-High, na AIME 2025. Ale pracownicy Openai na X szybko zauważyli, że wykres Xai wykres XAI. Nie uwzględnił wyniku AIME 2025 O3-Mini-High w „Cons@64”.
Co to jest Cons@64, możesz zapytać? Cóż, jest to skrót od „Consensus@64” i zasadniczo daje model 64 próbuje odpowiedzieć na każdy problem w odniesieniu i przyjmuje odpowiedzi wygenerowane najczęściej jako ostateczne odpowiedzi. Jak możesz sobie wyobrazić, Cons@64 ma tendencję do zwiększenia wyników modeli, a pominięcie go z wykresu może sprawić, że jeden model przewyższył inny, gdy w rzeczywistości tak nie jest.
Grok 3 rozumowanie beta i Grok 3 Mini rozumowanie dla Aime 2025 pod numerem „@1”-co oznacza, że pierwszy wynik, jaki modele osiągnęły na odległości-spadają poniżej wyniku O3-Mini-High. Grok 3 Reasoning Beta również szlak również za modelem O1 Openai na „Medium” Computing. Jednak XAI jest Reklama Grok 3 Jako „najmądrzejsza sztuczna inteligencja świata”.
Babushkin kłócił się o x że Openai w przeszłości publikował podobnie mylące wykresy porównawcze – choć wykresy porównujące wydajność własnych modeli. Bardziej neutralna impreza w debacie opracowała bardziej „dokładny” wykres pokazujący prawie każdy model w Cons@64:
Zabawne, jak niektórzy ludzie postrzegają mój spisek jako atak na Openai i inni jako atak na Grok, podczas gdy w rzeczywistości jest to głęboka propaganda
(Naprawdę uważam, że Grok wygląda tam dobrze, a Chicanery TTC Openai za O3-Mini-*High*-pass@”” ”1 ″” ”zasługuje na większą kontrolę.) pic.twitter.com/3wh8foufic– Teortaxes ▶ ️ (Deepseek Twitter🐋iron proszek 2023 – ∞) (@teortaxestex) 20 lutego 2025 r
Ale jako badacz AI Nathan Lambert wskazał w pościeByć może najważniejszą metryką pozostaje tajemnica: koszt obliczeniowy (i pieniężny), jaki potrzebował dla każdego modelu, aby osiągnąć swój najlepszy wynik. To po prostu pokazuje, jak mało większości testów testowych AI komunikuje o ograniczeniach modeli – i ich mocnych stronach.