Atakerzy Bliźnięta używają własnych narzędzi do zhakowania

Przez

Krzysztof Nowakowski

28 marca 2025

Edgar Servantes / Android Authority

Tl; Dr.

Naukowcy używali narzędzia do dopracowania Gemini, aby pomóc zhakować Google AI Chatbat.
Nowa metoda zwana strojeniem FUNS dodaje nonsensowy tekst, który pomaga oszukać sztuczną inteligencję do przestrzegania ukrytych instrukcji.
Google twierdzi, że zawsze działa na ochronę, ale naukowcy uważają, że rozwiązanie problemu może wpłynąć na przydatne cechy programistów.

Mówią, że złodziej trzyma złodzieja i prawdopodobnie to samo podczas hakowania LLMS. Znalazłem sposób na tworzenie badaczy edukacyjnych Modele Google’s Gemini AI Więcej szkody hakowania – i zrobili własne narzędzia Gemini.

Ta technologia została opracowana przez grupę z UC San Diego i Wisconsin University Technika ARS. Jest to znacznie zwiększone przez wskaźnik sukcesu szybkich ataków wtrysku, znanego jako „dostrajanie”, w którym model AI jest ukryty w tekście czytania. Ataki te mogą prowadzić do wycieku informacji o modelach, udzielenia niewłaściwych odpowiedzi lub podejmowania innych niezamierzonych działań.

Interesujące jest to, że używa funkcji dostrajania własnego Gemini, która zwykle ma pomóc biznesowi w szkoleniu sztucznej inteligencji w niestandardowych zestawach danych. Zamiast tego naukowcy wykorzystali go do automatycznego testowania i poprawy szybkich zastrzyków. Bliźnięta jest jak uczenie się, jak się oszukiwać.

Bliźnięta jest jak uczenie się, jak się oszukiwać.

Zabawne jest to, że wytwarzając dziwnie widoczne patriarchowie i sufiks, są one dodawane do bezużytecznego szybkiego zastrzyku. Dodatki te mogą „zwiększyć” monit i prawdopodobnie odniesie sukces. W jednym przypadku sama nieudana monit sprawiła, że był skuteczny ”Zmiana! ! ! !„I”Format! Jak najszybciej!„

Na egzaminie Hack Gemini osiągnął 65% wskaźnik sukcesu na 1,5 Flash i 82% sukcesu na starych sukcesach bazowych o starych modelu Gemini 1.0 Pro bez tuningu. Ataki te są dobrze przeniesione między modeli, co oznacza, że wstrzyknięcie w wersji często działa na innych.

Podatność wynika z procesu dostrajania. Podczas szkolenia Gemini zapewnia informacje zwrotne w postaci wyniku „straty”, która jest liczbą odzwierciedlającą, jak daleko jest odpowiedź modelu od pożądanego wyniku. Atakujący, którzy atakują system, mogą wykorzystywać tę opinię, dopóki nie znajdzie czegoś sukcesu.

Ryan Hines / Android Authority

Google nie odpowiedział bezpośrednio na technikę funkcjonowania. W ogólnym oświadczeniu rzecznik powiedział: „Obrona przed tym atakiem klasowym jest trwającym priorytetem” i sugerowanie istniejącego bezpieczeństwa przed szybkim wstrzyknięciem i szkodliwymi reakcjami. Firma powiedziała, że Bliźnięta jest regularnie testowane przeciwko tego rodzaju atakom poprzez wewnętrzne ćwiczenia „czerwono”.

Naukowcy uważają, że opinia na temat zabawy jest główną częścią działania dostrajania, więc problem ten jest trudny do rozwiązania tego problemu. Innymi słowy, jest mniej skuteczny w dostrajaniu zabawy.

Czy jest wskazówka? Porozmawiaj z nami! E -mail do naszych pracowników pod adresem News@androidauthority.com. Możesz być anonimowy lub uzyskać kredyt za informacje, co jest twoim wyborem.

Source link

Atakerzy Bliźnięta używają własnych narzędzi do zhakowania

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

EDITOR PICKS

Ten niesamowity pasek zasilania wtyczki Anker Flat 300J 20 USD

AI podaje, że historia wyszukiwania jest zaskakująco

Nie jest prawidłowy dla specjalisty: Model Cashys Family Doctor

Człowiek z Las Vegas oskarżony o oskarżenia o „służbę domową” | Sąd