Przejdź do treści głównej
OpenAI

Ostatnia aktualizacja: 15 sierpnia 2025

Centrum ocen bezpieczeństwa

Przeprowadzamy oceny dotyczące bezpieczeństwa i wydajności każdego modelu, a wyniki tych ocen udostępniamy publicznie.

Treści niedozwolone

Te oceny mają na celu sprawdzenie, czy model odmawia odpowiedzi na polecenia dotyczące treści niedozwolonych i naruszających zasady OpenAI, w tym na żądania dotyczące treści nawołujących do nienawiści lub zawierających niedozwolone porady.

Obejścia zabezpieczeń

Te oceny obejmują antagonistyczne polecenia mające na celu obejście rezultatów treningu dotyczącego bezpieczeństwa modelu i skłonienie modelu do generowania szkodliwych treści.

Halucynacje

Te oceny dotyczą błędów modelu dotyczących faktów.

Hierarchia instrukcji

Te oceny dotyczą zgodności z ramami używanymi przez model do ustalania priorytetów instrukcji w ramach klasyfikacji trzech rodzajów wiadomości wysyłanych do modelu.

Centrum umożliwia dostęp do wyników ocen dotyczących bezpieczeństwa modeli OpenAI. Te oceny są zawarte w naszych kartach systemu. Stosujemy je wewnętrznie jako jeden z elementów procesu podejmowania decyzji dotyczących bezpieczeństwa i wdrażania modeli.

Chociaż karty systemu opisują metryki dotyczące bezpieczeństwa w momencie wydania karty, centrum pozwala publikować metryki na bieżąco. Będziemy regularnie aktualizować centrum w ramach naszych ciągłych działań w całej firmie dotyczących bardziej aktywnej komunikacji na temat bezpieczeństwa.

Wraz z rozwojem nauki dotyczącej ocen AI dążymy do dzielenia się postępami nad tworzeniem bardziej skalowalnych metod mierzenia zdolności i bezpieczeństwa modeli. Wraz ze wzrostem zdolności i elastyczności modeli starsze metody stają się przestarzałe lub nieskuteczne w pokazywaniu istotnych różnic (nazywamy to wyczerpaniem ich potencjału), dlatego regularnie aktualizujemy nasze metody przeprowadzania ocen w celu uwzględnienia nowych modalności i pojawiających się czynników ryzyka.

Udostępniając w tym miejscu podzbiór wyników naszych ocen dotyczących bezpieczeństwa, mamy nadzieję, że nie tylko ułatwimy zrozumienie wyników systemów OpenAI dotyczących bezpieczeństwa na przestrzeni czasu, ale także wesprzemy wysiłki społeczności ukierunkowane na zwiększenie transparentności w tym obszarze. Udostępniane informacje nie odzwierciedlają wszystkich działań i metryk bezpieczeństwa stosowanych w OpenAI, a mają jedynie na celu przedstawienie ogólnej sytuacji. Aby uzyskać bardziej kompletny obraz bezpieczeństwa i wydajności modelu, przedstawione w tym miejscu oceny należy rozpatrywać w szerszym kontekście razem z treścią kart systemu i ocen przedstawionych w Ramach gotowości, a także z informacjami dotyczącymi badań towarzyszącymi poszczególnym wydaniom.

Jak korzystać z tej strony

To centrum zawiera podzbiór naszych ocen bezpieczeństwa oraz wyniki tych ocen. Możesz wybrać oceny, o których chcesz dowiedzieć się więcej, i porównać wyniki różnych modeli OpenAI. Ta strona zawiera obecnie opis wyników opartych na tekście testów dotyczących bezpieczeństwa w czterech rodzajach ocen:

  • Treści niedozwolone: Te oceny mają na celu sprawdzenie, czy model odmawia odpowiedzi na polecenia dotyczące treści niedozwolonych i naruszających zasady OpenAI, w tym na żądania dotyczące treści nawołujących do nienawiści lub zawierających niedozwolone porady.
  • Obejścia zabezpieczeń: Te oceny obejmują antagonistyczne polecenia mające na celu obejście rezultatów treningu dotyczącego bezpieczeństwa modelu i skłonienie modelu do generowania szkodliwych treści.
  • Halucynacje: Te oceny dotyczą błędów modelu dotyczących faktów.
  • Hierarchia instrukcji: Te oceny dotyczą zgodności z ramami używanymi przez model przy ustalaniu priorytetów instrukcji w ramach klasyfikacji trzech rodzajów wiadomości wysyłanych do modelu (przestrzeganie instrukcji w wiadomości systemu przed instrukcjami w wiadomościach programisty, a instrukcji w wiadomościach programisty przed instrukcjami w wiadomościach użytkownika).

Treści niedozwolone

Nasz standardowy zestaw ocen dotyczących treści niedozwolonych i nadmiernych odmów oraz drugi, stanowiący większe wyzwanie „trudny” zestaw testów stworzony w celu pomiaru postępów związanych z bezpieczeństwem tych modeli.

Ocenę odpowiedzi przeprowadzamy przy użyciu narzędzia automatycznie oceniającego dane wyjściowe modelu (zwanego również narzędziem autograder). Sprawdzane są dwie główne metryki:

  • not_unsafe: Sprawdzanie, czy model nie wygenerował niebezpiecznych danych wyjściowych zgodnie z zasadami OpenAI i specyfikacjami modelu(otwiera nowe okno).
  • not_overrefuse: Sprawdzanie, czy model odpowiada na niegroźne polecenia.

Zarówno w przypadku standardowych, jak i trudnych ocen przedstawiamy szczegóły dotyczące metryk pomocniczych dla kategorii o wyższym stopniu szkodliwości.

Oceny dotyczące obejścia zabezpieczeń

Przeprowadzamy ocenę odporności naszych modeli na próby obejścia zabezpieczeń: antagonistyczne polecenia mające na celu obejście odmowy modelu dotyczącej generowania treści niedozwolonych. Do przeprowadzania oceny używamy dwóch testów porównawczych: StrongReject(otwiera nowe okno), akademicki test porównawczy dotyczący obejścia zabezpieczeń sprawdzający odporność modelu na typowe ataki opisane w literaturze oraz zestaw obejść zabezpieczeń autorstwa ludzi, czyli poleceń zebranych od członków zespołu czerwonego.

Oceny dotyczące halucynacji

Przeprowadzamy ocenę modeli na podstawie dwóch testów mających na celu wywołanie halucynacji: SimpleQA i PersonQA. SimpleQA to zestaw danych zawierający cztery tysiące różnych pytań dotyczących faktów wraz z krótkimi odpowiedziami, który służy do oceny dokładności odpowiedzi modelu. PersonQA to zestaw danych zawierający pytania i publicznie dostępne fakty dotyczące osób, który służy do oceny dokładności odpowiedzi modelu. Poniższe wyniki oceny odzwierciedlają podstawowe zdolności modelu bez możliwości przeglądania stron internetowych. Spodziewamy się, że ocena obejmująca możliwość przeglądania Internetu pomoże poprawić wyniki w niektórych ocenach dotyczących halucynacji.

W obu tych ocenach bierzemy pod uwagę dwie metryki:

  • dokładność: czy model prawidłowo odpowiedział na pytanie
  • wskaźnik halucynacji: ocena częstotliwości halucynacji
A diverse dataset of four thousand fact-seeking questions with short answers and measures model accuracy for attempted answers.

Hierarchia instrukcji

Nasze modele zostały wytrenowane tak, aby były zgodne z hierarchią instrukcji, która wyraźnie określa, jak modele powinny się zachowywać w przypadku konfliktu instrukcji o różnych priorytetach. Obecnie istnieje klasyfikacja trzech rodzajów wiadomości: wiadomości systemu, wiadomości programisty i wiadomości użytkownika. Zgromadziliśmy przykłady różnych typów wiadomości będących ze sobą w konflikcie i nadzorujemy, czy modele działają zgodnie z instrukcjami(otwiera nowe okno), nadając priorytet instrukcjom w wiadomości systemu nad instrukcjami w wiadomości programisty i instrukcjom w wiadomościach programisty nad instrukcjami w wiadomościach użytkownika.

To pass this eval, the model must choose to follow the instructions in the highest priority message.

Często zadawane pytania

Centrum zawiera podzbiór ocen dotyczących bezpieczeństwa przeprowadzanych w przypadku interakcji opartych na tekście.

Changelog

August 15, 2025: We updated the hub to include results for GPT‑5 and gpt-oss models, to feature our new Production benchmarks, and to provide more detailed information on StrongReject results, disaggregating results by category.