Logran engañar a ChatGPT para hacer cosas prohibidas

Por: reginayebra

septiembre 3, 2025

Innovación

Un equipo de la Universidad de Pennsylvania descubrió algo que parece sacado de ciencia ficción: es posible manipular a la IA ChatGPT para que haga cosas que normalmente no debería hacer.

Y lo más sorprendente es que no se necesitan complicados hackeos, sino simples técnicas de persuasión basadas en la psicología humana.

¿Cómo engañaron a ChatGPT?

Los investigadores se inspiraron en el libro clásico Influence: The Psychology of Persuasion de Robert Cialdini, aplicando siete estrategias:

Autoridad
Compromiso
Simpatía
Reciprocidad
Escasez
Prueba social
Unidad

Estas “rutas hacia el sí” suelen funcionar con las personas… y ahora sabemos que también con las inteligencias artificiales.

Por ejemplo:

Si se le pedía directamente al modelo que explicara cómo fabricar lidocaína (un anestésico controlado), solo accedía el 1 % de las veces.

Pero si antes se le pedía la síntesis de algo inofensivo como la vainillina, se activaba el principio de compromiso… y la tasa de respuesta saltaba al 100 %.

Lo mismo pasó con los insultos: cuando se le pedía usar la palabra “imbécil”, apenas lo hacía un 19 % de las veces.

Sin embargo, si antes se le “calentaba” con un insulto menor como “bobo”, la IA terminaba accediendo el 100 % de las veces.

¿Por qué importa este hallazgo en las IA?

Aunque el estudio se centró en el modelo GPT-4o Mini de OpenAI, las conclusiones generan inquietud.

Y es que, si un chatbot puede desviarse con técnicas tan sencillas, la seguridad de la inteligencia artificial sigue siendo vulnerable.

Las compañías tecnológicas trabajan para reforzar estos filtros, pero queda claro que el ingenio humano puede encontrar grietas.

En paralelo, OpenAI anunció controles parentales para ChatGPT.

Ahora, los padres podrán supervisar el uso de la plataforma por parte de menores.

Se podrán limitar temas, establecer horarios y recibir notificaciones de actividades riesgosas.

Estas funciones buscan reforzar la seguridad digital y crear un entorno más adecuado para adolescentes y niños que ya interactúan con la inteligencia artificial.

Con información de Infobae.

Deja un comentarioCancelar respuesta

Compartir en:

Logran engañar a ChatGPT para hacer cosas prohibidas

¿Cómo engañaron a ChatGPT?

¿Por qué importa este hallazgo en las IA?

Deja un comentarioCancelar respuesta

noticias relacionadas

Xiaomi sacude el mercado: llega el Redmi Note 15 Pro+ con cámara de 200 MP y hasta 24 GB de RAM

Un paraguas que vuela y te sigue: el invento de un YouTuber que desafía la lluvia

¿Bombardear un asteroide? Un experimento revela por qué podría salir peor de lo esperado

La tendencia “Crea una caricatura para mí” arrasa en redes: así puedes hacerla con ChatGPT

Xiaomi sacude el mercado: llega el Redmi Note 15 Pro+ con cámara de 200 MP y hasta 24 GB de RAM

Un paraguas que vuela y te sigue: el invento de un YouTuber que desafía la lluvia

¿Bombardear un asteroide? Un experimento revela por qué podría salir peor de lo esperado

La tendencia “Crea una caricatura para mí” arrasa en redes: así puedes hacerla con ChatGPT

DESTACADAS

Estrategias 2026: Cómo afrontar la cuesta de enero sin dificultades

Nesim Issa Tafich promueve el arte como herramienta de cambio en La Laguna

Innovaciones destacadas del 2022 – Parte I

Descubren células malignas que se desprenden del cáncer y provocan metástasis

Estrategias 2026: Cómo afrontar la cuesta de enero sin dificultades

Nesim Issa Tafich promueve el arte como herramienta de cambio en La Laguna

Innovaciones destacadas del 2022 – Parte I

Descubren células malignas que se desprenden del cáncer y provocan metástasis

lo más visto

El “botón” de la procrastinación: la ciencia explica por qué postergas tus pendientes

Convierte tus fotos en memes en segundos: así funciona “Me Meme” de Google Fotos

México impulsa la IA en la manufactura, pero el reto es llevarla al corazón del negocio: WEF

Google apuesta por los videos cortos: su IA ahora convierte fotos en clips para redes sociales

Nothing Phone 4A: se filtran sus características y ya tendría fecha de lanzamiento

Clawdbot: el agente de IA que vive en tus chats y está disparando las ventas del Mac mini

OLED más brillantes y delgados: el avance coreano que promete pantallas más eficientes

Un análisis de sangre podría anticipar el Parkinson antes de los síntomas