Strona główna Rozrywka Chatboty oszukują swoje testy referencyjne

Chatboty oszukują swoje testy referencyjne

13
0

Firmy generatywne-AI sprzedały bezprecedensową i niekończącą się narrację postępu. W zeszłym tygodniu Openai wprowadzone GPT-4.5 jako „największy i najlepszy model czatu”. Na początku lutego Google zwany Najnowsza wersja Gemini „The Best AI Model na świecie”. Aw styczniu chińska firma Deekseek komplementowane Jego model R1 jest tak potężny jak model Openai O1 – co miał Sam Altman zwany „Najmądrzejszy model na świecie” w poprzednim miesiącu.

Istnieją jednak coraz więcej dowodów na to, że postęp I Spowolnienie poniżej I że chatbot napędzany przez LLM może być już blisko twojego szczytu. To niepokojące, ponieważ obietnica postępu stała się kwestia polityczna; Ogromne ilości ziemi, mocy i pieniędzy zostały zaprojektowane w celu zwiększenia technologii. Ile to naprawdę poprawić? Jak lepiej to być? Są to ważne pytania i są prawie niemożliwe do odpowiedzi, ponieważ testy mierzące postępy AI nie działają. (Atlantyk podpisał spółkę korporacyjną z Openai w 2024 r. Wydział redakcyjny Atlantyk Działa niezależnie od podziału biznesowego.)

W przeciwieństwie do konwencjonalnych programów komputerowych, AI Generative jest zaprojektowany tak, aby nie tworzyć dokładnych odpowiedzi na niektóre pytania, ale do uogólnienia. Chatbot musi być w stanie odpowiedzieć na pytania, które nie zostały specjalnie przeszkolone, aby odpowiedzieć, jako ludzki uczeń, który dowiaduje się nie tylko fakt, że 2 x 3 = 6, ale także jak pomnożyć dwie liczby. Model, który nie może tego zrobić, nie byłby w stanie „rozumować” ani wnieść znaczące wkłady w naukę, ponieważ obiecują firmy AI. Uogólnienie może być skomplikowane do pomiaru, a bardziej skomplikowane pokazuje, że model go poprawia. Aby zmierzyć sukces ich pracy, firmy powołują się na standardowe testy referencyjne w branży za każdym razem, gdy uruchamiają nowy model. Testy podobno zawierają pytania, których modele nie widziały, co pokazuje, że nie są one po prostu zapamiętujące fakty.

Jednak w ciągu ostatnich dwóch lat naukowcy opublikowali studia I Pokazuje to Chatgpt, Deepseek, Lama, Mistral, Google Gemma (o „Otwarty dostęp” Kuzyn jego produktu Gemini), Microsoft’s Phi i Alibaba Qwen zostali przeszkoleni w tekście popularnych testów porównawczych, zanieczyszczenie legitymacji twoich wyników. Pomyśl o tym jako ludzkim uczeń, który kradnie i zapamiętuje test matematyczny, oszukując swojego nauczyciela, aby myśleć, że nauczył się tworzyć długi podział.

Problem jest znany jako zanieczyszczenie odniesienia. Jest tak rozpowszechnione, że w październiku biuletyn sektorowy stwierdził, że „Testy referencyjne nie mają sensu. ” No entanto, apesar de como przyjęty Problem polega na tym, że firmy AI nadal cytują te testy jako główne wskaźniki postępu. (Port Google DeepMind -Voice powiedział mi, że firma poważnie podchodzi do problemu i nieustannie szuka nowych sposobów oceny swoich modeli. Żadna inna firma nie wymieniała w tym artykule.)

Zanieczyszczenie przez odniesienie niekoniecznie jest celowe. Większość testów porównawczych jest publikowana w Internecie, a modele są szkolone w dużych utworach tekstowych zebranych w Internecie. Zestawy danych szkoleniowych zawierają zarówno tekst, że znalezienie i filtrowanie testów porównawczych jest niezwykle. Kiedy Microsoft uruchomił nowy model języka w grudniu, badacz zespołu gotowany O „agresywnym” wykorzenianiu testów porównawczych w swoich danych szkoleniowych – ale model jest technikiem modelu raport Przyznał, że metody zespołu „nie były skuteczne we wszystkich scenariuszach”.

Jeden z najczęściej cytowanych punktów odniesienia nazywa się ogromnym zrozumieniem języka wielozadaniowego. Składa się z około 16 000 pytań wielokrotnego wyboru 57 pacjentówW tym anatomia, filozofia, marketing, odżywianie, religia, matematyka i programowanie. W ubiegłym roku, OtwarteTak, GoogleTak, MicrosoftTak, BramkaI Deepseek Wszyscy ogłosili wyniki swoich modeli w MMLU, ale naukowcy wykazali, że modele wszystkich tych firm zostały przeszkolone w swoich pytaniach.

Skąd naukowcy wiedzą, że „zamknięte” modele, takie jak Openai, zostały przeszkolone w odniesieniu? Ich techniki są inteligentne i ujawniają interesujące rzeczy na temat działania modeli językowych.

Zespół badawczy zadawał pytania od MMLU i zapytane Chatgpt nie dla poprawnych odpowiedzi, ale dla konkretnego błędny Opcja wielokrotnego wyboru. Chatgpt udało się podać dokładny tekst nieprawidłowych odpowiedzi w MMLLU 57 % czasu, czego prawdopodobnie nie mógł zrobić, chyba że został przeszkolony w teście, ponieważ opcje są wybierane z nieskończonej liczby niewłaściwych odpowiedzi.

Inny zespół naukowców z Microsoft i Xiamen University w Chinach, badane Wydajność GPT-4 w programach dotyczących konkurencji na pytania dotyczące konkurencji Codeforce Strona internetowa. Zawody są powszechnie uważane za sposób dla programistów na poprawę swoich umiejętności. Jak zrobił GPT-4? Bardzo dobrze w pytaniach, które zostały opublikowane na linii przed wrzesień 2021 r. W pytaniach opublikowanych po tej dacie ich wyniki spadły. Ta wersja GPT-4 była przeszkolony Według naukowców tylko w danych z września 2021 r. Sprowadzając naukowców do zasugerowania, że ​​zapamiętał pytania i „rzucając wątpliwości co do jego prawdziwych umiejętności rozumowania”. Udzielając większego poparcia tej hipotezy, inni badacze wykazali, że wydajność GPT-4 na pytania kodowania jest Lepiej na pytania, które pojawiają się najczęściej w Internecie. (Im częściej model widzi ten sam tekst, tym większe prawdopodobieństwo jego zapamiętywania).

Czy można rozwiązać problem zanieczyszczenia odniesienia? Niektóre sugestie zostały przedstawione przez firmy AI i niezależni badacze. Jeden jest Stale aktualizuj testy porównawcze z pytaniami opartymi na nowych źródłach informacji. Może to zapobiec pojawieniu się odpowiedzi w danych szkoleniowych, ale także łamie koncepcję odniesienia: standardowy test, który zapewnia spójne i stabilne wyniki do celów porównawczych. Inne podejście jest przyjmowane przez witrynę o nazwie Co stawia LLM, styl Gladiator i pozwala użytkownikom wybrać, który model zapewnia najlepsze odpowiedzi na ich pytania. Takie podejście jest odporne na obawy dotyczące zanieczyszczenia, ale jest subiektywne i równie niestabilne. Inni zasugerowali użycie LLM sędzia wydajność innego, jeden proces nie w pełni niezawodne. Żadna z tych metod nie oferuje pewnych pomiarów pojemności uogólnienia LLM.

Chociaż firmy IA zaczęły mówić o „Modele rozumowania„Technologia jest taka sama, gdy w listopadzie 2022 r. Chatgpt. niezgłębiony?

Tymczasem branża AI działa pozornie na czerwono. Firmy AI nie odkryły jeszcze, jak czerpać korzyści z modeli fundamentów. Mogliby skorzystać z dobrej historii o postępach.

Source link

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj