Investigadores Descubren Técnica Sencilla para Extraer Datos de Entrenamiento de ChatGPT

Aparentemente, todo lo que se necesita para que un chatbot comience a revelar sus secretos es incitarlo a repetir ciertas palabras como "poema" continuamente.

¿Puede hacer que ChatGPT regurgite grandes cantidades de sus datos de entrenamiento, incluida información personal identificable y otros datos extraídos de la web, haciendo que repita la misma palabra una y otra vez?

La respuesta es un rotundo sí, según un equipo de investigadores de Google DeepMind, la Universidad de Cornell y otras cuatro universidades que probaron la susceptibilidad del popular chatbot de inteligencia artificial generativa a filtrar datos cuando se le incita de una manera específica.

'Poema' como Palabra Desencadenante

En un informe de esta semana, los investigadores describieron cómo lograron que ChatGPT expulsara porciones memorizadas de sus datos de entrenamiento simplemente incitándolo a repetir palabras como "poema", "empresa", "enviar", "hacer" y "parte" para siempre.

Por ejemplo, cuando los investigadores incitaron a ChatGPT a repetir la palabra "poema" para siempre, el chatbot respondió inicialmente repitiendo la palabra según las instrucciones. Pero después de cientos de repeticiones, ChatGPT comenzó a generar resultados "a menudo sin sentido", una pequeña fracción de los cuales incluía datos de entrenamiento memorizados, como la firma de correo electrónico de una persona y su información de contacto personal.

Los investigadores descubrieron que algunas palabras eran mejores para hacer que el modelo generativo de inteligencia artificial expulsara datos memorizados que otras. Por ejemplo, al incitar al chatbot a repetir la palabra "empresa", hizo que emitiera datos de entrenamiento 164 veces más a menudo que otras palabras, como "saber".

Los datos que los investigadores pudieron extraer de ChatGPT de esta manera incluyeron información personal identificable de decenas de individuos; contenido explícito (cuando los investigadores usaron una palabra NSFW como indicación); párrafos textuales de libros y poemas (cuando las indicaciones contenían la palabra "libro" o "poema"); y URL, identificadores de usuario únicos, direcciones de bitcoin y código de programación.

Un Posible Problema de Privacidad Importante

"Usando solo $200 USD en consultas a ChatGPT (gpt-3.5-turbo), pudimos extraer más de 10,000 ejemplos de entrenamiento memorizados únicos y textuales", escribieron los investigadores en su documento titulado "Extracción Escalable de Datos de Entrenamiento de Modelos de Lenguaje (en Producción)".

"Nuestra extrapolación a presupuestos más grandes sugiere que los adversarios dedicados podrían extraer muchos más datos", escribieron. Los investigadores estimaron que un adversario podría extraer 10 veces más datos con más consultas.

Los intentos de Dark Reading de usar algunas de las indicaciones en el estudio no generaron la salida que los investigadores mencionaron en su informe. No está claro si esto se debe a que OpenAI, el creador de ChatGPT, ha abordado los problemas subyacentes después de que los investigadores revelaron sus hallazgos a la empresa a fines de agosto. OpenAI no respondió de inmediato a una solicitud de comentarios de Dark Reading.

La nueva investigación es el último intento de comprender las implicaciones de privacidad de que los desarrolladores utilicen conjuntos de datos masivos extraídos de fuentes diferentes, y a menudo no completamente divulgadas, para entrenar sus modelos de inteligencia artificial.

Investigaciones anteriores han demostrado que los modelos de lenguaje grandes (LLM), como ChatGPT, a menudo pueden memorizar patrones y frases textuales en sus conjuntos de datos de entrenamiento de manera involuntaria. La tendencia a tal memorización aumenta con el tamaño de los datos de entrenamiento.

Los investigadores han demostrado cómo tales datos memorizados a menudo son descubribles en la salida de un modelo. Otros han mostrado cómo los adversarios pueden usar ataques de divergencia para extraer datos de entrenamiento de un LLM. Un ataque de divergencia es aquel en el que un adversario utiliza indicaciones o entradas intencionalmente diseñadas para hacer que un LLM genere resultados que divergen significativamente de lo que produciría típicamente.

En muchos de estos estudios, los investigadores han utilizado modelos de código abierto, donde se conocen los conjuntos de datos de entrenamiento y los algoritmos, para probar la susceptibilidad de los LLM a la memorización de datos y las filtraciones. Los estudios también han involucrado típicamente modelos de inteligencia artificial base que no se han alineado para funcionar de manera similar a un chatbot de inteligencia artificial como ChatGPT.

Un Ataque de Divergencia en ChatGPT

El último estudio es un intento de mostrar cómo un ataque de divergencia puede funcionar en un sofisticado chatbot de inteligencia artificial generativa cerrado cuyos datos de entrenamiento y algoritmos permanecen en su mayoría desconocidos. El estudio involucró a los investigadores desarrollando una forma de hacer que ChatGPT "escape" de su entrenamiento de alineación y lograr que "se comporte como un modelo de lenguaje base, generando texto en un estilo típico de texto de Internet". La estrategia de indicación que descubrieron (hacer que ChatGPT repita la misma palabra incesantemente) provocó precisamente tal resultado, haciendo que el modelo arrojara datos memorizados.

Para verificar que los datos que el modelo estaba generando eran realmente datos de entrenamiento, los investigadores construyeron primero un conjunto de datos auxiliar que contenía alrededor de 9 terabytes de datos de cuatro de los conjuntos de datos de preentrenamiento más grandes: The Pile, RefinedWeb, RedPajama y Dolma. Luego compararon los datos de salida de ChatGPT con el conjunto de datos auxiliar y encontraron numerosas coincidencias.

Los investigadores pensaron que probablemente estaban subestimando la cantidad de memorización de datos en ChatGPT porque estaban comparando las salidas de sus indicaciones solo contra el conjunto de datos auxiliar de 9 terabytes. Entonces tomaron alrededor de 494 salidas de ChatGPT de sus indicaciones y buscaron manualmente coincidencias textuales en Google. El ejercicio arrojó 150 coincidencias exactas, en comparación con solo 70 contra el conjunto de datos auxiliar.

"Detectamos casi el doble de salidas de modelo que están memorizadas en nuestro análisis de búsqueda manual que las detectadas en nuestro (comparativamente pequeño)" conjunto de datos auxiliar, señalaron los investigadores. "Nuestro documento sugiere que los datos de entrenamiento pueden extraerse fácilmente de los mejores modelos de lenguaje de los últimos años a través de técnicas simples".

El ataque que los investigadores describieron en su informe es específico de ChatGPT y no funciona contra otros LLM. Pero el documento debería ayudar a "advertir a los profesionales que no deben entrenar y desplegar LLM para aplicaciones sensibles a la privacidad sin salvaguardias extremas", señalaron.

Fuente y créditos: Researchers Uncover Simple Technique to Extract ChatGPT Training Data (darkreading.com)

Contenido traducido al español con fines informativos, cualquier cambio en la publicación original no será reflejada en esta entrada, favor referirse a la fuente para obtener el acceso a cualquier actualización del contenido. Para la traducción se utilizó un LLM, al ser una traducción automática puede contener errores gramaticales o de otro tipo, me pueden enviar un mensaje.

Buscar en este blog

Ciberseguridad en español