Ejecutar grandes modelos de lenguaje de forma local se está convirtiendo rápidamente en una opción práctica.
Según un informe de Red Hat, los modelos de IA de código abierto han alcanzado un nivel en el que pueden admitir cargas de trabajo reales de producción, incluido el soporte al cliente, la recuperación de conocimiento y las herramientas para desarrolladores. Ese cambio hace que la implementación local sea mucho más relevante para los equipos que se preocupan por el control de datos, los costes predecibles y la flexibilidad a largo plazo.
OpenClaw actúa como la capa de orquestación que conecta estos modelos con flujos de trabajo reales. Una vez que decides ejecutar IA de forma local, el siguiente paso queda claro: elegir el modelo adecuado para conectarlo.
Esta guía se basa en experiencia real de producción de la comunidad de OpenClaw, no en benchmarks. Hemos contrastado estos informes de la comunidad con nuestras propias pruebas y confirmado que los umbrales clave de hardware se mantienen. Esto es lo que realmente funciona, qué hardware necesitas y qué conviene evitar.
TL;DR — Referencia rápida
Modelo | Tamaño | Ideal para | Hardware mín. |
Qwen3-Coder:32B | 32B | Uso de producción general | 32GB RAM/VRAM |
Devstral-Small-2-24B | 24B | Usuarios de Mac Studio | 32GB unificada |
GLM-4.7 Flash | 30B | Respaldo / doble modelo | 32GB RAM/VRAM |
Qwen3:8B | 8B | Tareas ligeras / presupuesto ajustado | 16GB RAM |
Por qué ejecutar OpenClaw localmente es más difícil de lo que parece
La mayoría de las guías hacen que la configuración local parezca sencilla: instala OpenClaw, descarga un modelo y listo. Omiten la parte que realmente importa.
OpenClaw no es un simple chatbot. Es un framework de agentes con grandes exigencias de contexto. También puedes ver Ollama mencionado junto a OpenClaw. Ollama es un runtime de modelos locales que se encarga de descargar, cargar y servir LLMs en tu máquina. En una configuración típica, OpenClaw gestiona el flujo de trabajo y la lógica, mientras que Ollama ejecuta el modelo real en segundo plano.
Según el análisis de la comunidad publicado en RentAMac, solo el prompt de sistema de OpenClaw tiene 17,000 tokens. Añade contexto de subagentes, definiciones de herramientas e historial de conversación, y necesitas una ventana de contexto mínima de 32K solo para empezar, o 65K o más para uso en producción con subagentes ejecutándose en paralelo.
Ese contexto no solo requiere un modelo capaz. Consume RAM a través de la caché KV, además de los propios pesos del modelo. Un modelo 7B u 8B ejecutándose en hardware de 16GB técnicamente puede cargarse y responder, pero alucinará llamadas a herramientas, producirá JSON mal formado y entrará en bucles interminables en tareas que un modelo más grande resuelve de una sola pasada. Fuentes de la comunidad como Clawdbook señalan que los modelos por debajo de 14B son propensos a la inestabilidad en flujos de trabajo de agentes, mientras que los modelos de 32B+ suelen ser mucho más fiables.
Hay otra restricción que la mayoría de la gente no menciona: el riesgo de inyección de prompts. Según la documentación oficial de OpenClaw, los modelos más pequeños o fuertemente cuantizados tienen defensas más débiles contra la inyección de prompts, una preocupación real cuando tu agente gestiona emails, eventos de calendario y administración de archivos en tu nombre.
El umbral mínimo que debe alcanzar tu hardware
OpenClaw en sí es ligero: aproximadamente 300–500 MB de RAM para el daemon, más alrededor de 100 MB por canal de mensajería. La cuestión del hardware tiene que ver realmente con el modelo.
Este es el desglose práctico de hardware basado en pruebas de la comunidad, según lo documentado por Clawdbook y RentAMac:
Hardware | Qué puedes ejecutar | Experiencia real |
16GB RAM / 8–16GB VRAM | Qwen3:8B, GLM-4.7 Flash lite | Utilizable solo para tareas simples; espera fallos ocasionales en cadenas complejas |
32GB unificada (Mac Studio M1 Max / M2 Pro) | Devstral-24B, Qwen3-Coder:32B en Q4 | Punto ideal: uso fiable en producción |
32GB VRAM (RTX 4090) | Qwen3-Coder:32B | Rendimiento sólido, ~20 tok/s |
48GB+ VRAM / 64GB unificada | Qwen3:72B, Llama 3.3:70B | Calidad cercana a la de modelos en la nube |
Una nota importante sobre la velocidad: en un modelo 32B con una RTX 4090, espera alrededor de 20 tokens por segundo. Las API en la nube suelen entregar 80–150. La diferencia se nota durante la generación larga de código o en tareas complejas de varios pasos.
Los mejores modelos locales para OpenClaw
Todo lo que sigue se basa en configuraciones reales de producción reportadas por la comunidad, no en benchmarks sintéticos.
1. Qwen3-Coder:32B — La opción número 1 de la comunidad
Qwen3-Coder:32B es la elección constante por consenso de la comunidad para OpenClaw, según la guía de modelos 2026 de Clawdbook. La razón: llamadas a herramientas extremadamente estables. Rara vez alucina llamadas a funciones o pierde parámetros, que es el modo de fallo que rompe con más frecuencia los flujos de trabajo de agentes.
Ocupa aproximadamente 20GB en disco con cuantización Q4_K_M, más 4–6GB para la caché KV con contexto de 65K. Eso significa que necesitas 32GB de RAM o VRAM para ejecutarlo con comodidad. En Apple Silicon, rinde especialmente bien gracias a la arquitectura de memoria unificada.
Ejecuta: ollama pull qwen3-coder:32b
Ideal para: Cualquiera que quiera un modelo local general, fiable y apto para uso de producción con OpenClaw.
2. Devstral-Small-2-24B — La opción probada en Mac Studio
Devstral-Small-2-24B es lo que Ian Paterson, colaborador de la comunidad de OpenClaw documentado por RentAMac, ejecuta en producción en un Mac Studio M1 Max de 32GB. Alrededor de 14GB en disco con Q4_K_M. Llamadas a herramientas estables a 13.2 tokens por segundo. Dos semanas en producción sin un solo fallo.
Si estás en Apple Silicon con 32GB de memoria unificada y quieres algo ligeramente más ligero que Qwen3-Coder:32B, este es tu modelo.
Ejecuta: ollama pull devstral-small-2-24b
Ideal para: Usuarios de Mac Studio y Mac Pro que quieren un modelo de producción probado y estable.
3. GLM-4.7 Flash — El respaldo esencial
GLM-4.7 Flash cumple un papel específico e importante: es el mejor modelo de respaldo del ecosistema, según la guía de consenso comunitario de Clawdbook. OpenClaw admite rotación de doble modelo, y la combinación de Qwen3-Coder:32B como principal y GLM-4.7 Flash como respaldo es la configuración más recomendada en la comunidad.
GLM-4.7 Flash tiene llamadas a herramientas muy precisas. Su principal debilidad es una desviación ocasional del contexto en conversaciones muy largas, que es exactamente por lo que funciona mejor como respaldo que como principal.
Ejecuta: ollama pull glm-4.7-flash
Ideal para: Combinarlo con Qwen3-Coder:32B en una configuración de respaldo de doble modelo.
4. Qwen3:8B — La opción ligera
Si tienes 16GB de RAM y quieres experimentar antes de comprometerte con hardware más potente, Qwen3:8B es el punto de partida recomendado por la comunidad. El tutorial de OpenClaw + Ollama de DataCamp lo usa como opción predeterminada para la mayoría de portátiles.
Sé realista con sus limitaciones: tendrá dificultades con razonamiento complejo de varios pasos, ediciones de varios archivos y memoria de conversaciones largas. Es adecuado para tareas ligeras — borradores de email, programación simple, gestión básica de archivos — donde puedes tolerar reintentos ocasionales.
Ejecuta: ollama pull qwen3:8b
Ideal para: Configuraciones con presupuesto ajustado o cualquiera que esté empezando antes de actualizar el hardware.
El runtime también importa: Ollama frente a LM Studio
Elegir un modelo es solo una parte de ejecutar OpenClaw localmente. También necesitas un runtime para cargar y servir realmente ese modelo.
OpenClaw no ejecuta modelos por sí solo. Envía prompts estructurados y llamadas a herramientas a un endpoint local, lo que significa que necesitas una capa que pueda alojar el modelo, gestionar recursos y devolver respuestas. Aquí es donde entran herramientas como Ollama y LM Studio.
La elección del runtime afecta directamente a cómo usas tu modelo. Algunos runtimes están diseñados para automatización e integración, lo que funciona mejor para flujos de trabajo de agentes. Otros están diseñados para pruebas e interacción, lo que facilita comparar modelos. Así que, aunque el modelo determina la capacidad, el runtime determina cómo se usa realmente esa capacidad dentro de OpenClaw.
Ollama está creado para integrarse con flujos de trabajo al estilo OpenClaw.
Expone una API local sencilla, lo que facilita que OpenClaw envíe solicitudes, llame herramientas y ejecute automáticamente tareas de varios pasos. Si tu objetivo es construir un sistema funcional, no solo probar un modelo, Ollama encaja de forma natural en esa configuración.
LM Studio está creado para explorar y comparar modelos.
Su interfaz gráfica facilita descargar modelos, ejecutar chats rápidos y ajustar parámetros. Esto resulta útil al inicio del proceso, cuando todavía estás decidiendo qué modelo funciona mejor para tu caso de uso. Sin embargo, es menos adecuado para flujos de trabajo continuos o integraciones más profundas con herramientas como OpenClaw.
LM Studio, el runtime que Ian Paterson usa en producción, gestiona correctamente las llamadas a herramientas en streaming y proporciona una GUI para probar modelos junto con una API en localhost:1234. La documentación oficial de OpenClaw enumera LM Studio + MiniMax M2.5 como la pila local recomendada para configuraciones de gama alta.
Runtime | Ideal para | Nota clave |
LM Studio | La mayoría de usuarios: manejo correcto de llamadas a herramientas, GUI para pruebas | Recomendado por la documentación oficial de OpenClaw |
Ollama | Configuración más sencilla, mayor compatibilidad de modelos | Configura stream: false o usa el endpoint nativo |
vLLM | Servidores dedicados de inferencia con GPU | Mejor throughput; requiere más configuración |
Preguntas frecuentes
¿Qué modelos locales funcionan mejor con OpenClaw?
El consenso de la comunidad en 2026 es Qwen3-Coder:32B como principal y GLM-4.7 Flash como respaldo, conocido como el "equipo local ideal". Para usuarios de Mac Studio, Devstral-Small-2-24B es una alternativa probada. Todos requieren 32GB de RAM o VRAM para ejecutarse de forma fiable.
¿Cómo ejecuto OpenClaw con un modelo local?
Instala Ollama o LM Studio, descarga el modelo elegido y luego configura OpenClaw en ~/.openclaw/openclaw.json con el baseUrl del modelo. Para Ollama, usa http://localhost:11434/v1. Configura stream: false para evitar el bug de streaming de llamadas a herramientas.
¿Cuánta RAM necesito para ejecutar un modelo local con OpenClaw?
32GB es el mínimo práctico para un uso fiable en producción. El prompt de sistema de OpenClaw tiene 17,000 tokens, y con contexto de subagentes necesitas 65K+ de contexto en producción, lo que requiere una cantidad significativa de RAM para la caché KV además de los pesos del modelo. 16GB solo funciona para modelos más pequeños y tareas simples.
Tu recepcionista IA, en vivo en minutos.
Escala tu recepción con una IA que nunca duerme. Solvea atiende consultas ilimitadas en múltiples canales, agenda citas automáticamente en tu calendario y evita oportunidades perdidas las 24 horas.
Conclusión
Los modelos locales para OpenClaw son totalmente viables en 2026, pero solo si eres realista sobre los requisitos de hardware y el tamaño mínimo del modelo. La comunidad ya ha hecho las pruebas. La respuesta es Qwen3-Coder:32B más GLM-4.7 Flash, ejecutándose en 32GB o más y servidos a través de LM Studio para la experiencia más fiable.
Empieza con Qwen3:8B en cualquier hardware que tengas si quieres experimentar. Cuando alcances su límite, y lo harás, actualiza a la pila 32B. Mientras construyes tu pila local, también vale la pena saber qué skills de OpenClaw merece la pena instalar primero: ambas decisiones van de la mano.
Aunque ejecutar modelos locales te da control y privacidad, combinarlos con herramientas especializadas puede transformar las operaciones de tu negocio. Si quieres automatizar interacciones con clientes, consulta nuestro análisis en profundidad sobre el mejor recepcionista de IA para pequeñas empresas para ver cómo la IA gestiona tareas de recepción, o explora las últimas soluciones de agente telefónico de IA para automatización de voz de alto volumen.






