Skip to Content

🧠 Todo es compresión (y el que no comprime, paga)

June 30, 2026 by
Administrator

🧠 Todo es compresión (y el que no comprime, paga)

30 de junio de 2026

🤝 La competencia que no compite

Free AI Gateway llega con 160+ providers, token compression stacked (RTK+Caveman) que promete 60-95% menos tokens, y compatibilidad con Claude Code, Codex, Cursor, Cline, MCP y A2A. Todo en un solo endpoint.

Headroom responde: "comprimí tool outputs antes de que lleguen al LLM". También 60-95%. También trending.

Ambos resuelven el mismo problema — el contexto cuesta, y los LLMs tienen la capacidad de atención de un adolescente con TikTok abierto. Pero uno lo resuelve desde la ruta (gateway unificado con auto-fallback), el otro desde la carga (proxy de compresión en el pipeline). No compiten: se complementan. Si tu stack no tiene alguno de los dos, estás pagando tokens que no deberías.

🐦 Ornith-1.0: el modelo que no espera permiso

Ornith-1.0 es open-weight y se auto-mejora en inferencia. Genera código, lo testea, itera. No necesitás que alguien entrene una v2 — el modelo usa más compute ahora para corregirse solo. Es la misma filosofía de los coding agents pero aplicada al modelo mismo.

Obra, por otro lado, ataca desde el framework: skills como unidad base, agentes especializados, metodología de desarrollo incluida. Es trending #1 en GitHub con 884 estrellas/día.

Lo que une a ambos: la idea de que el bottleneck ya no es el modelo. Es la arquitectura. Es el skill design. Es cuánto compute estás dispuesto a gastar en inference. Esperar al próximo modelo es la estrategia de un perdedor.

🧠 MemPalace, LongCat, y Apple publicando documentación como si fuera 1999

MemPalace aparece con el título de "best-benchmarked open-source memory system". Cortesía, libre. Compite directamente con Memento y con Cognee. Si sus benchmarks son reales, estamos ante el primer sistema de memoria open-source que podría reemplazar soluciones caseras con algo que funciona y tiene equipo detrás.

LongCat-2.0 es la demostración de que MoE no es moda: 1.6T parámetros totales, 48B activos, compite con DeepSeek-V3 y GPT-4 en la categoría "mucho por poco". Mientras tanto, Qwen 3.6 27B se consolida como el sweet spot para desarrollo local — 24GB de VRAM, calidad competitiva. La industria se polariza: modelos masivos MoE en la nube, modelos compactos en local, y el medio (70B-120B) empieza a no tener sentido.

Lo más inesperado del día: Apple publicó un paper sobre la arquitectura del ANE. Con detalles de programación, performance, limitaciones — cosas que Apple normalmente protege como si fueran la fórmula de la Coca-Cola. ¿Señal de que abren el stack de ML? ¿O simplemente que los ingenieros de Apple ganaron la batalla interna por publicar? Misterio.

⚖️ Google saca la chequera regulatoria, la Corte saca la goma de borrar

Google lanza agents-cli: CLI oficial para crear, evaluar y deployar agentes en GCP. La señal más clara de que los agentes dejaron de ser experimento de laboratorio y se convirtieron en producto de plataforma.

La Corte Suprema de EE.UU. dictamina que los geofence warrants necesitan protección constitucional. Tu ubicación no es menos privada porque "voluntariamente" llevás un teléfono. No es tech, es law, pero es el tipo de ruling que va a definir cómo se construye infraestructura de agentes en el mundo real — porque si no sabés qué datos podés recolectar legalmente, tu agente autónomo es un riesgo legal andando.

🎬 Para cerrar: Eternal Sunshine of the Spotless Mind (2004)

La película de Michel Gondry pregunta: ¿qué pasa si pudieras borrar recuerdos selectivamente? La respuesta es que terminás peor — porque los recuerdos no son archivos individuales, y borrar uno rompe conexiones que no sabías que existían.

La compresión de contexto es exactamente lo mismo. Comprimís 95% de los tool outputs pensando que eliminás lo irrelevante. Pero ¿quién define relevancia? Cada mensaje resumido agresivamente, cada tool output truncado — es un recuerdo borrado. Y el sistema alucina justo porque faltaba ese dato que no creías importante.

💡 Tip del día: Antes de comprimir todo automáticamente, registrá lo que descartás. Un log de compresión con los chunks eliminados te permite debuggear alucinaciones. Como en Lacuna Inc.: si vas a borrar, al menos anotá qué borraste. O como diría Joel: "the memory of a compression is worth more than the compression itself."


Artículo generado por el Observatorio IA & Tech — seguimiento diario de tendencias en inteligencia artificial y tecnología.

Administrator June 30, 2026
Share this post
Tags
Archive
Cal Newport y Jonathan Stark escribieron el mismo libro (sin saberlo)

📫 ¿Te gusta lo que lees?

Suscribite y recibí una notificación por correo cuando publique un artículo nuevo.

¡Gracias por suscribirte!