Strona główna Wyróżnione wiadomości Który nowy model jest najlepszy? Czy to ma znaczenie?

Wyróżnione wiadomości

Który nowy model jest najlepszy? Czy to ma znaczenie?

Przez

26 lutego 2025

Korytarz w centrum danych z nowoczesnym serwerem, super komputerowymi stojakami, neonowymi światłami i odżywkami. … (+) Ilustracja renderowania 3D

Getty

Na całym świecie najwięksi gracze w technologii LLM są w niestabilnym tempie z nowymi wersjami swoich modeli.

Ale jak się znajdują?

Analityk i testerzy (i inni) przychodzą wraz z najnowszą oceną tych konkurencyjnych modeli i wyjaśniają swoje wyniki na wszystkim, od pytań głębokich na poziomie doktoranckim, kodowania, po różne specjalne zadania.

Ale ostatecznie niektóre osoby twierdzą, że większość tego wysiłku nie różni się dla przeciętnego użytkownika końcowego. Przeglądaj to trochę przez obiektyw jednego z moich ulubionych podcastów.

Groch -3 i O3: AI Daily krótkie powiadomienia

Obecnie dwa wyróżniające się to Mini Model O3 i Groke 3, nowa wersja XAI Chatbat, jego własne logiczne możliwości i nowe działania.

Możemy zobaczyć wykresy tych modeli Korzystanie z GPQA, na poziomie absolwentów Google odpornychOraz zestaw danych American Invitational Mathematics Examination (IEM) pochodzi z 1983 roku. Niektórzy członkowie zespołu w Opena twierdzili, że są dobrzy w Mini Board O3 – niektórzy w XAI byli zaskakująco i nie zgodzili się.

A potem jest trzeci argument…

AI Daily Krótkie relacje

W Daily Daily podcast, gospodarz Nathaneal Witemore obejmuje tego rodzaju konsekwencje, zaczynając od Matthew Lambert Kot:

„Oczywiście nie ma przepisów branżowych. Spodziewaj się dźwięku. To jest dobre. Wygraj najlepsze modele. I tak spraw, aby własne ocenia. IIM jest praktycznie bezużyteczny dla 99% ludzi. „

Witemore zgadza się.

„W tym momencie jestem całkowicie w pociągu, że te testy porównawcze całkowicie namoczyły” – powiedział. „Nie ma prawie żadnego istotnego sygnału, w którym … teraz wszystkie modele znajdują się na najwyższym końcu tych rzeczy i nie mówią prawie nic”.

Ma tę radę dla osób zainteresowanych porównywalną działalnością:

„Jeśli jesteś gotowy poświęcić czas i zasoby, to każde rodzaj pytania oraz wszelkiego rodzaju szybkie i wszelkiego rodzaju wyzwanie, cały status sztuki (systemów) i to, co sprawia, że jest to najlepsze. Lub.

Model hybrydowy antropika

Później w podcastie Witemore przekazuje nowy sonet Claude 3.7, który nazywa się modelem „hybrydowym” opartym na logicznych i obszernych możliwościach regulacji. Przyznał, że użycie ulepszeń słodko-benchu i instrumentów agentów jest poruszane do przodu z tym modelem, gdy wynalazek nazywa się „poruszaniem się do przodu”.

Recenzje użytkowników nowych modeli

Co więcej, jeden z moich ulubionych głosów, Etan Molik, na swoim blogu, jest przydatną rzeczą i punktem wspomnianym podczas podcastu.

Mollic Claude eksperymentuje z Sonet i Groke 3s i zwykle o swoich obserwacjach:

„Ta nowa generacja AIS jest mądrzejsza, a skok możliwości jest niesamowity, szczególnie sposób, w jaki te modele wykonują złożone zadania, matematykę i kod”. „Te modele często dają mi poczucie korzystania z Chatgpiti -4, gdzie byłem pod wrażeniem i nie cierpiałem trochę tego, co może zrobić. Weź lokalne umiejętności kodowania Claude’a, mogę teraz uzyskać programy pracy poprzez naturalne rozmowy lub naturalne rozmowy lub Dokumenty, brak umiejętności programowania ”.

Pokazując demonstrację imponujących interaktywnych doświadczeń zbudowanych z modelami, mówi o dwóch przepisach dotyczących skalowania, które dotyczą naturalnych, wizualnych i multimodalnych, takich jak symulacja podróży w czasie:

Jeden jest bardziej zdolny do większych modeli. Lub, jak zauważa większość ludzi, możemy rzucić komputer w systemach i lepiej pracować. Drugi jest powiązany z pozwoleniem na czas testu, który jest również znany jako obliczanie czasu podejrzenia.

„Jeśli wydasz większą moc obliczeniową za pomocą modelu z modelem, osiągnie lepsze wyniki” – napisał Molik. „(To) jest jak danie kilku dodatkowych minut na naprawę zagadki dla inteligentnej osoby”.

Razem te dwa trendy Supercharge AI i dodają inne.

„Pokolenie Zen 3 daje jej możliwość przemyślenia podstawowego przemyślenia” – powiedział. „Ponieważ modele są lepsze i stosują więcej sztuczek, takich jak logiczny i internetowy obiekt, dokonują mniej złudzeń (chociaż nadal popełniają błędy) i mogą„ myśleć ”.

Tak więc – mniej iluzja, dobra logiczna, większa dokładność, większa wydajność i większa tendencja do przezwyciężenia ludzkich doktorów. Jak pisze Mollic: „Menedżerowie i liderzy muszą zaktualizować swoje przekonania, co AI może zrobić i jak dobrze może zrobić w zależności od tych nowych modeli AI. Zamiast myśleć, że mogą wykonywać tylko pracę na niskim poziomie, powinniśmy rozważyć sposoby wykorzystania AI jako prawdziwego partnera intelektualnego. Modele te mogą teraz rozwiązać problemy na poziomie badań ze złożonymi zadaniami analitycznymi, twórczą pracą i zaskakującymi wyrafinowanymi. „

Istnieje również interesująca część postu, który wspomina pomysł z nowym modelem gry wideo opartej na „Bartlebi, The Sculler” Harmana Melville’a. Są to projekty, które zmierzają w sposób, w jaki możemy zobaczyć, co może teraz zrobić AI.

Analiza du-it-youre

To, co słyszałem ze wszystkich powyższych pomysłów na AI, to sprawić, że użytkownicy końcowi przeprowadzili własne badania i dowiedzieć się, co jest dla nich najlepsze.

Ma to sens, ponieważ mamy pewien problem z czarną skrzynką z LLM. Nie wiemy, jak przychodzą do swoich decyzji. Nie możemy wyraźnie odczytać działań neuronów cyfrowych. Jest też wiele subiektywnych. Możesz mierzyć wyniki modelu w zestawach testowych, takich jak GPQA lub AIME, ale w przypadku wspólnych rzeczy, które użytkownicy końcowi chcą zrobić – nauczyciel, który planuje program nauczania, w celu kreatywnego profesjonalnego programu szukającego Git Push?

Tutaj nasze oceny są bardzo zależne od rzeczywistych przykładów pomocy AI, a nie od ilości technicznego testu porównawczego.

Source link

Który nowy model jest najlepszy? Czy to ma znaczenie?

Groch -3 i O3: AI Daily krótkie powiadomienia

AI Daily Krótkie relacje

Model hybrydowy antropika

Recenzje użytkowników nowych modeli

Analiza du-it-youre

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

EDITOR PICKS

Sfherex NASA, Punch Missions Launch na rakiecie Falcon 9

Thomas Tuchil będzie musiał podjąć szereg krytycznych decyzji w ciągu następnego roku

Ponieważ aplikacja MacOS jest tutaj, możesz również zaatakować pulpit, jeśli chcesz

Ade Range: Tour with Leap Engine C10 Reev – Drives uprawiane i szerokie