El número que más aparece en los anuncios de chips con IA, los TOPS (Tera Operations Per Second) del NPU, es también el más engañoso.
Un procesador con 50 TOPS puede perder frente a uno con 38 TOPS en las tareas de IA que realmente usas, dependiendo del ancho de banda de memoria y la potencia del GPU integrado. Esta comparativa va al fondo de eso.
Puntos Clave
- Los TOPS del NPU solo importan para tareas ligeras del sistema operativo: transcripción, efectos de videoconferencia y procesamiento de imagen en tiempo real. Para correr LLMs localmente, la memoria unificada y el GPU integrado pesan mucho más.
- Apple M5 domina la IA local para modelos de lenguaje por arquitectura, no por marketing: sus 16-32 GB de memoria unificada actúan como VRAM de alta velocidad al 100%, sin compartir con el sistema operativo ni las apps abiertas.
- En plataforma Windows, AMD Ryzen AI 300 tiene ventaja clara sobre Intel Core Ultra 200V para inferencia de LLMs y generación de imagen local, gracias al GPU integrado Radeon 890M: el más potente del segmento Windows en 2026.
Qué significa “IA local”: tres casos de uso con hardware distinto
No todas las tareas de IA local funcionan igual ni requieren el mismo chip. Hay tres categorías con requerimientos de hardware muy distintos, y confundirlas lleva a comprar mal.
Funciones de IA del sistema operativo: transcripción en tiempo real (Recall, Live Captions), supresión de ruido en videollamadas, desenfoque de fondo, mejora de imagen en pantalla. El NPU es el chip relevante. Requieren pocos parámetros, baja latencia y eficiencia energética. Aquí los TOPS sí importan.
Modelos de lenguaje pequeños y medianos (LLMs): Phi-3, Mistral 7B, Llama 3.2 8B. Se ejecutan con llama.cpp u Ollama y exigen memoria de alta velocidad accesible por el GPU integrado. El NPU casi no interviene. El diferenciador es el ancho de banda de RAM y cuánta memoria queda disponible para el modelo.
Generación de imagen y modelos grandes: Stable Diffusion, Flux, Llama 3.1 70B. La cantidad de memoria disponible como VRAM efectiva define si el modelo corre o no. Sin suficiente memoria contigua accesible por el GPU, el modelo simplemente no carga a velocidad útil.
Para entender cómo funciona el NPU a nivel de silicio y por qué su rol es más acotado de lo que el marketing sugiere, el análisis de la NPU como el cerebro silencioso que toma decisiones en 2026 desarrolla la arquitectura en profundidad.
Comparativa técnica: los tres chips en una tabla
| Chip | NPU (TOPS) | GPU integrado | RAM máx. | Ancho de banda | TDP típico |
|---|---|---|---|---|---|
| Intel Core Ultra 9 288V | 48 TOPS | Arc 140V (8 Xe-cores) | 32 GB LPDDR5X | ~68 GB/s | 17-30 W |
| AMD Ryzen AI 9 HX 370 | 50 TOPS | Radeon 890M (16 CUs) | 96 GB LPDDR5X | ~102 GB/s | 28-54 W |
| Apple M5 base | ~45 TOPS | 10-core GPU | 16-32 GB unificada | 120 GB/s | 20 W |
| Apple M5 Pro | ~45 TOPS | 14-core GPU | 24-64 GB unificada | 273 GB/s | 30 W |
TOPS del Apple M5 es estimación basada en la progresión del Neural Engine del M4 (38 TOPS confirmados).
La columna que más importa para LLMs no es la de TOPS: es el ancho de banda de RAM. El Ryzen AI 300 supera al Core Ultra 200V en aproximadamente un 50% de ancho de banda efectivo. Apple M5 base lo duplica. Apple M5 Pro lo cuadruplica.
Intel Core Ultra 200V (Lunar Lake): el más eficiente para IA de sistema operativo
El Core Ultra 200V es el chip más eficiente por watt de esta comparativa. Laptops ultradelgadas como el ASUS Zenbook S14 (~$22,000 MXN) o el Dell XPS 13 (~$29,000 MXN) lo usan precisamente porque ofrece 48 TOPS de NPU con un consumo de entre 17 y 30 W configurables.
La memoria está soldada en el paquete del procesador (on-package), lo que reduce latencia y mejora el ancho de banda respecto a módulos SO-DIMM convencionales. El techo de 32 GB es, sin embargo, una limitación real para quienes quieren cargar modelos completos en memoria para inferencia acelerada.
Para las funciones de IA de Windows 11 Copilot+ -transcripción con Recall, efectos de videoconferencia, mejora de imagen en tiempo real- el Core Ultra 200V es el chip más optimizado del ecosistema Windows. La colaboración entre Intel, Microsoft y fabricantes de software ha producido drivers e integraciones que AMD todavía no iguala en fluidez.
Donde pierde: el GPU Arc 140V con 8 Xe-cores queda por debajo del Radeon 890M de AMD para inferencia de LLMs y generación de imagen local. Si tu prioridad es correr Ollama o Stable Diffusion en Windows, el GPU de AMD es la opción correcta.
AMD Ryzen AI 9 HX 370 (Strix Point): el GPU integrado más capaz en Windows
El Radeon 890M con 16 CUs de arquitectura RDNA 3.5 es el GPU integrado más potente disponible en laptops Windows en 2026. Para inferencia de LLMs con llama.cpp en modo GPU, ofrece entre 1.5x y 2x más rendimiento que el Arc 140V del Core Ultra 200V en modelos de 7B-13B parámetros.
102 GB/s de ancho de banda con LPDDR5X a 7500 MT/s es el segundo diferenciador. Un modelo de 8B en formato GGUF cuantizado a Q4 de aproximadamente 4.5 GB carga completamente en memoria y la inferencia corre sin penalización por paginado. Con el Core Ultra 200V a 68 GB/s, el mismo modelo funciona pero con menor velocidad de generación de tokens por segundo.
El NPU XDNA 2 con 50 TOPS cumple con los requisitos de Copilot+ y Windows Studio Effects. En la práctica, la diferencia de 2 TOPS frente al Intel no produce ninguna mejora perceptible en funciones del sistema operativo.
Donde pierde: el TDP de 28-54 W en los modelos HX implica mayor consumo y más disipación térmica. Los laptops con Ryzen AI 300 HX son más gruesos y pesados que sus equivalentes con Core Ultra 200V. Para quien prioriza portabilidad máxima sobre potencia de inferencia, el Intel es más conveniente.
Apple M5: la arquitectura de memoria que cambia el argumento
El M5 hace algo que Intel y AMD no pueden replicar todavía: elimina la distinción entre RAM del sistema y VRAM. Los 16 GB o 32 GB de memoria unificada están disponibles al 100% para el GPU, el CPU y el Neural Engine de forma simultánea, con 120 GB/s de ancho de banda en la versión base.
Para LLMs de 7B-13B parámetros en llama.cpp u Ollama, un MacBook Air M5 con 16 GB genera entre 25 y 40 tokens por segundo. Un laptop Windows con 16 GB RAM destina parte de esa memoria al sistema operativo y las aplicaciones activas, reduciendo la memoria efectiva disponible para el modelo.
Con 32 GB en el M5, los modelos de 30B parámetros son viables. El M5 Pro con 64 GB y 273 GB/s de ancho de banda abre modelos de 70B en velocidades usables. Ninguna plataforma Windows en este rango de precio alcanza eso.
Para profundizar en cómo Apple Silicon compite con arquitecturas ARM de otras plataformas en cómputo general, el comparativo de Apple Silicon M4 vs Snapdragon X Elite cubre el contexto de rendimiento completo.
Qué chip conviene según la tarea
| Tarea de IA local | Mejor opción | Por qué |
|---|---|---|
| Funciones Copilot+ y Windows Studio Effects | Intel Core Ultra 200V | Mejor eficiencia, drivers más maduros |
| LLMs pequeños/medianos (7B-13B) en Windows | AMD Ryzen AI 300 + 32 GB | Mayor ancho de banda y GPU más potente |
| Generación de imagen local (Stable Diffusion, Flux) | AMD Ryzen AI 300 o Apple M5 | Radeon 890M o GPU unificada con alta BW |
| LLMs de 30B-70B parámetros | Apple M5 Pro/Max | Únicos con memoria suficiente y velocidad |
| Transcripción en tiempo real, laptop ultradelgada | Intel Core Ultra 200V | 17-30 W, mejor portabilidad |
| Ecosistema Windows con software empresarial | Intel Core Ultra 200V o AMD Ryzen AI 300 | Compatibilidad nativa con herramientas Windows |
Dónde encontrar estos chips en México: equipos y precios de referencia
Los tres procesadores vienen integrados en laptops, mini PCs o Mac. Precios orientativos en México a junio de 2026:
Intel Core Ultra 200V: ASUS Zenbook S14 (~$22,000 MXN), Dell XPS 13 (~$29,000 MXN), HP OmniBook X (~$21,000 MXN).
AMD Ryzen AI 300 (HX): ASUS ROG Zephyrus G14 (~$30,000 MXN), Lenovo ThinkPad T14s Gen 6 AMD (~$24,000 MXN).
Apple M5: MacBook Air 13″ M5 (~$34,000 MXN estimado), MacBook Pro 14″ M5 (~$38,000 MXN estimado).
Para seleccionar el modelo concreto según tu presupuesto y perfil de uso, el análisis de las mejores laptops con NPU integrada en 2026 detalla los equipos específicos con benchmarks reales de inferencia.
Si buscas una solución de escritorio para IA local con mayor capacidad térmica y sostenida, los mejores mini PCs para IA local en 2026 cubre las alternativas con más memoria y mejor rendimiento en inferencia continua.
Preguntas Frecuentes
Apple M5 es la mejor opción en casi todos los escenarios. La memoria unificada actúa como VRAM de alta velocidad sin compartir con el sistema operativo, lo que permite cargar modelos completos con velocidades de inferencia superiores a cualquier plataforma Windows del mismo rango de precio.
Los TOPS miden el rendimiento de la NPU en operaciones matriciales específicas y optimizadas. La NPU se usa principalmente para tareas de inferencia ligera del sistema operativo. Para LLMs y generación de imagen, el GPU integrado y el ancho de banda de memoria son más relevantes.
Funciona, pero con limitaciones. El GPU Arc 140V puede ejecutar modelos SDXL o Stable Diffusion 1.5 en modo CPU+GPU con la interfaz ComfyUI o Automatic1111, pero la velocidad de generación es significativamente inferior a la del Radeon 890M de AMD. Para generación de imagen local como uso frecuente, AMD Ryzen AI 300 o Apple M5 son opciones más adecuadas.
El mínimo práctico para modelos de 7B-8B parámetros cuantizados es 16 GB. Con 32 GB puedes correr modelos de hasta 13B con comodidad y modelos de 30B en cuantización Q4. En Apple Silicon, esos 32 GB son completamente aprovechables para inferencia.




