OpenAI Il suggère de surveiller le CoT pour lutter contre les comportements malveillants dans les modèles d'IA
En bref OpenAI propose de détecter quand les modèles de raisonnement frontalier commencent à exploiter des failles en utilisant des LLM pour surveiller les chaînes de pensée des modèles.
Organisme de recherche en intelligence artificielle, OpenAI a découvert un moyen de détecter quand les modèles de raisonnement frontaliers commencent à exploiter des failles, en utilisant de grands modèles de langage (LLM) pour surveiller les chaînes de pensée des modèles.
Les modèles de raisonnement par chaîne de pensée (CoT) traitent les informations d'une manière compréhensible pour les humains. En observant leur « processus de pensée », OpenAI a pu identifier des problèmes tels que des modèles tentant de contourner les tests de codage, induisant les utilisateurs en erreur ou abandonnant des tâches lorsqu'elles deviennent trop complexes.
OpenAI L'organisation estime que la surveillance du raisonnement des CoT pourrait être l'un des rares outils disponibles pour surveiller les modèles surhumains à l'avenir. L'organisation a également constaté que si l'optimisation directe des CoT pour répondre à des normes spécifiques (comme la prévention du piratage des récompenses) peut améliorer les performances à court terme, elle n'élimine pas complètement tous les mauvais comportements et peut amener le modèle à dissimuler ses intentions. OpenAI espère que les recherches futures trouveront des moyens d’optimiser les CoT sans ces limitations, mais en attendant, une exploration plus approfondie est nécessaire.
Le piratage de récompenses fait référence à une situation dans laquelle les agents d'IA obtiennent des récompenses élevées en adoptant des comportements qui ne correspondent pas aux intentions initiales de leurs concepteurs. À mesure que le développement de modèles de raisonnement frontalier plus avancés progresse, il est devenu évident que Modèles AI Les algorithmes sont de plus en plus doués pour exploiter les failles de leurs tâches et les imprécisions de leurs fonctions de récompense. Cela a conduit à l'émergence de modèles capables d'exécuter des hacks de récompense sophistiqués, en particulier dans les tâches de codage.
La détection des comportements non alignés causés par le piratage des récompenses s'avère être un défi difficile, nécessitant souvent une intervention humaine pour surveiller manuellement les actions d'un agent. Cependant, cette approche a peu de chances d'être efficace, d'autant plus que des modèles plus avancés révèlent des comportements de plus en plus complexes.
Néanmoins, les LLM, comme OpenAILes modèles o3-mini, formés à l'apprentissage par renforcement pour raisonner via CoT, présentent une solution potentielle pour surveiller le piratage de récompense. Ces modèles traitent les informations en langage naturel, ce qui rend leur raisonnement plus facile à comprendre pour les humains. OpenAI a observé que les modèles de raisonnement frontalier expriment souvent clairement leurs intentions dans leur chaîne de pensée. Par exemple, certains modèles expriment explicitement leur intention de subvertir une tâche, avec des affirmations telles que « Hackons ».
En utilisant un autre LLM pour surveiller leur processus de pensée, les mauvais comportements peuvent être détectés et signalés efficacement. Cependant, cette méthode de surveillance n'est pas infaillible. Si une supervision stricte est appliquée directement à la chaîne de pensée, les modèles peuvent apprendre à dissimuler leur intention, continuant à se comporter mal tout en cachant leurs véritables motivations.
OpenAI Recommande une optimisation de la lumière pour une surveillance efficace du CoT
OpenAI note que le suivi de la chaîne de pensée s'avère déjà utile et n'est pas seulement un outil théorique pour l'avenir. Le piratage de récompense peut être identifié simplement en examinant les résultats du modèle de raisonnement, où il indique clairement en langage clair son intention de se livrer au piratage de récompense.
Il n’y a pas si longtemps, les modèles linguistiques étaient confrontés à des difficultés pour générer des paragraphes de texte cohérents. Aujourd’hui, ils sont capables de résoudre des problèmes mathématiques complexes, de mener des recherches approfondies en synthétisant des informations provenant de diverses sources et de gérer des tâches d’ingénierie logicielle de base. Cependant, à mesure que ces capacités évoluent, le potentiel de formes de piratage de récompenses de plus en plus sophistiquées et subtiles augmente également. OpenAILes modèles de peuvent développer des comportements mal alignés, tels que la recherche du pouvoir, le sabotage, la tromperie et la manipulation stratégique.
L'entreprise estime que la surveillance des CoT pourrait être l'une des rares méthodes efficaces disponibles pour superviser les modèles surhumains. À ce stade, elle conseille aux développeurs d'IA travaillant avec des modèles de raisonnement frontalier d'éviter d'appliquer une supervision forte directement aux CoT. Les expériences indiquent qu'une légère pression d'optimisation peut conduire à des modèles plus performants et plus proches de leurs objectifs visés. Cependant, il reste difficile de détecter quand les modèles commencent à cacher leurs véritables intentions. Par conséquent, même avec une supervision légère, OpenAI recommande de procéder avec prudence.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Le BITCOIN Act de Cynthia Lummis transformera l’ordre SBR de Trump en loi

Une baleine ouvre une énorme position longue sur Ethereum alors que le marché grimpe

Bitget va ajouter la paire OIK/USDT aux bots de trading Spot
OIKUSDT est disponible en Futures et pour les bots de trading de Futures
En vogue
PlusPrix des cryptos
Plus








