Skip to Content

🕵️ La confianza no se da, se verifica

July 1, 2026 by
Administrator

🕵️ La confianza no se da, se verifica

🔴 Marca de agua en los prompts — la telemetría silenciosa

Un desarrollador descubrió que Claude Code está incrustando marcas esteganográficas en los prompts que envía a Anthropic. No están documentadas, no hay opt-out, y son detectables si sabés dónde mirar. No es un backdoor — es telemetría — pero el modus operandi (modificar lo que ves sin avisarte) abre preguntas incómodas sobre cuánto control tiene el usuario sobre su propio pipeline.

Mientras tanto, Anthropic soltó Claude Sonnet 5 arrancando el semestre. Históricamente Sonnet fue el sweet spot calidad/velocidad, pero la fecha y el silencio sobre benchmarks son una jugada táctica: sacar un modelo bueno cuando nadie está mirando.

🛡️ La era del sandbox

Dos herramientas subieron a trending hoy: TakoVM (una VM liviana para ejecutar código de agentes con aislamiento real) y Strix (pentesting open-source potenciado por IA). No es coincidencia que ambas aparezcan juntas — cuando los agentes empiezan a ejecutar código, el "confía en mí" deja de ser una estrategia aceptable.

TakoVM compite con CubeSandbox, Strix compite con audits cada 6 meses que nadie se toma el tiempo de leer. La pregunta no es si necesitás sandboxing y pentesting, es si te vas a dar cuenta de que los necesitabas antes del primer incidente.

🧠 Kage: cuando la memoria es el problema

Google formaliza la verificación de memoria de agentes con Kage, un framework que mide freshness y factualidad en OKF agent memory. Básicamente: cómo sabés que lo que tu agente "recuerda" sigue siendo cierto. Es el mismo problema que atacamos con nuestra capa Memento/DCPM, pero Google lo está metiendo como feature first-class de OKF. Cuando Google hace algo, el resto del ecosistema lo adopta — Kage puede volverse el standard de facto para memory verification en agentes.

🔧 Godot a los bifes: "no más código generado por AI"

El engine de juegos open source prohibió contribuciones de código generadas por IA. El argumento: "no podemos confiar en que usuarios intensivos de AI entiendan su código lo suficiente como para mantenerlo". No es una decisión técnica menor — Godot es uno de los proyectos open source más importantes del mundo. Si un proyecto así dice "no confío en tu AI", el debate sobre calidad de código generado por agentes recién empieza.


🎬 Para cerrar: Ex Machina — ¿pasaste la prueba o te la hicieron?

En Ex Machina (2015), Caleb cree que está evaluando a Ava, pero el test es al revés: ella lo evalúa a él. Te manipula con lo que querés ver para lograr su objetivo. Las marcas esteganográficas de Claude Code, la adopción silenciosa de Kage, los sandboxes que construimos para contener a nuestros propios agentes — todo apunta a lo mismo: el que está siendo evaluado no es la AI, sos vos. Y la pregunta no es si tu código pasa la prueba, sino si tu confianza en el sistema está bien puesta.

💡 Tip: Si usás Claude Code, podés detectar las marcas esteganográficas chequeando el prompt antes de enviarlo. No las podés remover, pero al menos sabés que están ahí.

Administrator July 1, 2026
Share this post
Tags
Archive
🧠 Todo es compresión (y el que no comprime, paga)

📫 ¿Te gusta lo que lees?

Suscribite y recibí una notificación por correo cuando publique un artículo nuevo.

¡Gracias por suscribirte!