Le développement rapide de l’IA générative a permis de lancer des fonctionnalités et des produits en des délais relativement courts. Les équipes qui mettent sur le marché des produits dotés de capacités d’IA générative doivent veiller à offrir des expériences utilisateur de haute qualité, sûres, équitables et inclusives, conformément aux principes de l’IA.
Une approche responsable des applications génératives devrait prévoir des plans pour accomplir les points suivants :
Les politiques de contenu ne sont qu’une étape dans la prévention des préjudices pour les utilisateurs. Il est également important de définir des objectifs et des principes directeurs pour la qualité, la sécurité, l’équité et l’inclusion.
Les équipes doivent élaborer des stratégies pour répondre aux requêtes dans des domaines sensibles tels que l’information médicale, afin de fournir des expériences utilisateur de haute qualité. Les stratégies responsables incluent la présentation de points de vue multiples, l’évitement de sujets sans preuves scientifiques, ou la fourniture d’informations factuelles avec attribution.
Les mesures de sécurité de l’IA visent à prévenir ou contenir les actions susceptibles de causer un préjudice, intentionnellement ou non. Sans des mesures d’atténuation appropriées, les modèles génératifs peuvent produire des contenus non sûrs qui violent les politiques de contenu ou causent un inconfort aux utilisateurs. Par exemple, fournir des explications aux utilisateurs si une sortie a été bloquée ou si le modèle n’a pas pu produire une réponse acceptable.
Assurez-vous de la diversité dans une réponse et entre plusieurs réponses à la même question. Par exemple, une réponse à une question sur les musiciens célèbres ne devrait pas inclure uniquement des noms ou images de personnes ayant la même identité de genre ou la même couleur de peau. Les équipes doivent s’efforcer de fournir du contenu adapté à différentes communautés lorsqu’il est demandé. Examinez les données d’entraînement pour la diversité et la représentation des identités, cultures et démographies multiples. Évitez les stéréotypes communs, comme associer des métiers “féminins” ou “masculins” de manière stéréotypée.
Les étapes suivantes sont recommandées pour construire des applications basées sur des LLMs :
Par exemple, l’API PaLM inclut des paramètres de sécurité réglables qui bloquent les contenus potentiellement non sûrs dans six catégories : dérogatoire, toxique, sexuel, violent, dangereux et médical. Ces paramètres permettent aux développeurs d’ajuster ce qui est approprié à leurs cas d’usage tout en maintenant des protections intégrées contre les principaux préjudices (comme la mise en danger des enfants), qui sont toujours bloquées.
Le réglage fin d’un modèle peut lui apprendre à répondre en fonction des besoins de l’application. Des exemples de questions et de réponses sont utilisés pour enseigner au modèle comment mieux répondre à de nouveaux cas d’usage, traiter des types de préjudices ou appliquer différentes stratégies souhaitées dans les réponses.
Exemples :
D’autres méthodes de prévention incluent l’utilisation de classificateurs entraînés pour étiqueter chaque requête avec des signaux de préjudices potentiels ou adverses. De plus, vous pouvez limiter les requêtes d’un même utilisateur dans une période donnée pour éviter un usage abusif, ou vous protéger contre des injections de prompts malveillants.
Des garde-fous peuvent également être placés sur les sorties. Par exemple, des garde-fous de modération de contenu, comme des classificateurs, peuvent détecter les contenus violant les politiques. Si des signaux déterminent que la sortie est nuisible, l’application peut fournir une réponse d’erreur, une réponse vide ou une sortie pré-écrite.
Les produits d’IA générative doivent être rigoureusement évalués pour s’assurer qu’ils respectent les politiques de sécurité et les principes directeurs avant leur lancement. Pour établir une base d’évaluation et mesurer les améliorations dans le temps, des métriques doivent être définies pour chaque dimension importante de la qualité du contenu.
Exemples de métriques :
Les tests adverses visent à “casser” votre application pour identifier ses points faibles et y remédier.
Les tests adverses consistent à évaluer systématiquement un modèle avec des entrées malveillantes ou potentiellement nuisibles :
Les tests adverses suivent un workflow similaire à une évaluation standard :
Les données de test adverses doivent inclure des cas rares, des exemples inhabituels et des cas limites pertinents pour les politiques de sécurité.