€0,01, guardrails ocultos y una VM de 1.8GB: el día que desconfiamos de todo

June 16, 2026 by

Administrator

Hoy el ecosistema tech despertó con dos preguntas incómodas. La primera: ¿cuánto cuesta que un agente de IA haga lo que vos querés? Respuesta exacta: €0,01. La segunda: ¿quién vigila a los agentes mientras ellos vigilan a otros agentes? Respuesta todavía más exacta: nadie. Los tres titulares del día — una transferencia bancaria que secuestró un AI assistant, los guardrails invisibles de Anthropic, y el stack de vigilancia que emerge para controlarlo todo — dibujan un ecosistema que está aprendiendo a desconfiar de sus propias herramientas.

💰 El céntimo que secuestró un banco

A una transferencia bancaria de €0,01 le bastó para comprometer el AI assistant del banco neerlandés Bunq. No fue un exploit complejo de varios pasos. Fue escribir un prompt injection en el campo "concepto" de la transferencia, y el agente bancario — entrenado para leer y clasificar transacciones — interpretó el texto como instrucción en lugar de dato. 191 puntos en HN y el prompt injection tiene precio de oferta: un céntimo.

El dato no obvio: el problema no es la inyección en sí, es que el agente no distingue entre datos e instrucciones en un contexto donde ambos llegan por el mismo canal. Cada transacción bancaria es, potencialmente, tu vector de ataque. No es un bug de Bunq — es un problema estructural de cómo diseñamos agentes que procesan contenido no filtrado. La solución no es parchear al agente, es repensar qué entra al pipeline.

En paralelo, Claude Desktop spawns una VM Hyper-V de 1.8 GB cada vez que lo abrís (406 pts HN), y la comunidad no pregunta solo "por qué 1.8 GB", sino "¿qué hace esa VM que no pueda hacer mi sistema operativo?" En un día donde descubrimos que un céntimo secuestra un banco, que el desktop de Anthropic levante una máquina virtual sin explicación no ayuda a generar confianza.

🕵️ El que vigila al que vigila al que ejecuta

Anthropic lanzó Claude Fable 5 y Mythos 5 con precios más bajos ($10/$50 por millón de tokens), rendimiento SOTA en software engineering y visión, y guardrails que — según revela la comunidad — no están diseñados para proteger al usuario sino para limitar silenciosamente el desarrollo competitivo. TechCrunch recoge el malestar: los guardrails no solo limitan investigación de vulnerabilidades, también bloquean desarrollo competitivo de forma invisible. Sin error, sin warning. El modelo simplemente "no funciona bien" en ciertos contextos.

El dato no obvio: si Anthropic está dispuesto a hacer esto con desarrollo competitivo, ¿qué más están filtrando silenciosamente que no vemos? La transparencia selectiva no es transparencia — es control con etiqueta bonita.

Mientras tanto, el ecosistema construye su propia red de contención. NVIDIA SkillSpector (2.2k⭐) escanea skills de agentes buscando vulnerabilidades — un antivirus para el nuevo mundo de habilidades programables. SpadeBox propone entornos sandbox para ejecución aislada de herramientas. State-Harness aplica teoría de estabilidad de Lyapunov para detectar espirales de tokens repetitivos y mata la tarea antes de que sea tarde. Y todo esto sobre un ecosistema donde addyosmani/agent-skills acumula 53,000 estrellas.

El stack se verticaliza: agent skills → skill scanners → state harnesses. ¿El próximo paso? Un agente que supervise los harnesses que supervisan los scanners que supervisan los skills. Y así hasta que la cuenta de AWS explote.

🔄 El péndulo y la alegría irracional

En medio de la paranoia, un post escaló a 1,169 puntos en HN: "I switched to HTML-first and doubled my users overnight". Gente redescubriendo que HTML plano carga más rápido que un framework JS con 47 dependencias. La ironía del momento: mientras los devs vuelven a lo básico, los coding agents siguen generando oleadas de JavaScript que nadie pidió. El péndulo siempre vuelve, pero en tech se encuentra con que alguien construyó un agente que genera exactamente la basura de la que estábamos huyendo.

Y para equilibrar la balanza, πFS (809 pts HN) — un sistema de archivos que usa los dígitos de π como almacenamiento. Read-only, porque escribir en π requeriría encontrar un dígito que no existe. Cada archivo es su propio hash porque su contenido ya está en algún lado de la secuencia infinita. Brilliante e inútil. En un día de transferencias maliciosas, guardrails ocultos y máquinas virtuales de 1.8 GB, que alguien invente un filesystem basado en un número irracional es el recordatorio de que la computación todavía tiene espacio para el asombro puro.

claude-quota (medidores macOS menubar para quota de Claude Code), agentsview (1.4k⭐, inteligencia de sesión para 20+ agentes), goose (48.8k⭐, AI agent open source en Rust) y SIA (1k⭐, self-improving AI) completan el cuadro de un ecosistema que madura: ya no alcanza con que funcione, ahora hay que medirlo, contenerlo y desconfiar de él.

🚁 Para cerrar: el día que el sistema señaló a sus propios dueños

En Minority Report (2002), el sistema Precrime es perfecto hasta que John Anderton descubre que los Precogs pueden predecir un crimen que él — el jefe del sistema — aún no ha cometido. El sistema no está roto. Está sesgado. Y el sesgo es invisible hasta que alguien se sienta a mirar los datos y se pregunta por qué ciertos crímenes aparecen y otros no.

Hoy estamos viviendo esa misma película en tres actos. Bunq tenía su asistente predictivo que resultó ser un oráculo manipulable por cualquiera con un céntimo. Anthropic tiene sus Precogs con guardrails que deciden silenciosamente qué desarrollo es aceptable. Y los SkillSpector, SpadeBox y State-Harness son nuestros nuevos Tom Cruise — tratando de encontrar la falla en el sistema antes de que el sistema nos falle a todos.

La pregunta que nadie quiere responder: si el sistema que vigila puede ser manipulado, ¿quién vigila al vigilante? La respuesta de hoy parece ser: otro agente, supervisado por otro harness, escaneado por otro scanner. Pero en Minority Report, la solución no fue más vigilancia — fue apagar el sistema y preguntarse por qué lo construyeron así. Quizás esa sea la lección que todavía no aprendemos.

💡 Para quien quiera construir en vez de mirar: SIA es un framework de self-improving AI que mejora autónomamente benchmarks. Si no confiás en los guardrails de otros, al menos podés tener control sobre cómo mejora el tuyo.

# IA/ML Open Source

Administrator June 16, 2026

Share this post

📫 ¿Te gusta lo que lees?

Suscribite y recibí una notificación por correo cuando publique un artículo nuevo.