La investigación en aprendizaje automático dentro de Apple se ha convertido en una de las piezas clave para entender cómo evoluciona la inteligencia artificial cuando se lleva al gran público. No hablamos solo de modelos espectaculares en la nube, sino de IA que vive en tu iPhone, tu iPad, tu Mac o tus Apple Watch, y que se ejecuta directamente en el dispositivo con un foco casi obsesivo en la privacidad.
En este artículo vamos a desgranar cómo funciona realmente Apple Machine Learning Research y el ecosistema Apple Intelligence: qué tecnologías usan, qué frameworks tienes como desarrollador, cómo se organiza la investigación interna, nombramiento de Amar Subramanya, qué papel juegan los Mac con Apple silicon y por qué la compañía insiste tanto en conceptos como «procesamiento en el dispositivo» o «Computación Privada en la Nube». Ponte cómodo, porque vamos a recorrerlo todo con bastante detalle. Vamos allá con una gran guía sobre Apple Machine Learning Research: así investiga Apple la Inteligencia Artificial y el aprendizaje automático.
Apple Intelligence: la apuesta de Apple por una IA personal y privada

Apple ha bautizado su nuevo paraguas de funciones de IA como Apple Intelligence, un sistema de inteligencia personal que se integra en iOS, iPadOS, macOS y el resto de plataformas. La idea es clara: que la IA entienda tu contexto, tus prioridades y tus datos, pero sin que tengas que renunciar a tu privacidad.
En la práctica, Apple Intelligence se nota en funciones cotidianas como clasificar notificaciones y correos según lo que realmente te importa, reescribir textos, corregirlos o resumirlos con las Herramientas de Escritura, o generar imágenes de forma sencilla desde el sistema. Todo ello apoyado en grandes modelos fundacionales optimizados para funcionar en el dispositivo.
Una peculiaridad llamativa es que Apple ha decidido que su sistema de generación de imágenes no cree retratos fotorrealistas de personas. Los estilos serán más ilustrados o creativos, como una forma de frenar el uso de deepfakes y otros abusos habituales en la IA generativa.
La compañía también ha integrado la IA en funciones muy concretas, como la edición inteligente de fotos para borrar elementos molestos, la mejora de notas escritas a mano en el iPad (corrigiendo tu caligrafía con ayuda del aprendizaje automático), o la generación de ilustraciones a partir de bocetos rápidos en tu bloc de notas digital.
Privacidad extrema: IA en el dispositivo y Computación Privada en la Nube
Una de las grandes obsesiones de Apple es que la IA se ejecute, siempre que sea posible, directamente en el dispositivo para proteger al máximo los datos personales. Cuando Apple habla de Apple Intelligence, insiste en que el sistema «conoce tu información, pero no se la queda».
Esto se traduce en que muchas funciones de texto, voz, imágenes o contexto usan modelos que corren en tu iPhone, iPad o Mac, apoyándose en el chip de Apple silicon y en el Neural Engine. Solo cuando hace falta más potencia o memoria recurre a la nube, y ahí entra en juego la llamada Computación Privada en la Nube.
La Computación Privada en la Nube permite que ciertos procesos se ejecuten en servidores con chips de Apple, diseñados expresamente para procesar tus datos de forma aislada y eliminar esa información cuando la tarea termina. Apple promete que incluso en estos casos no crea perfiles individuales ni vincula los datos a tu identidad.
Esta filosofía también llega a funciones concretas como las transcripciones en tiempo real de llamadas o grabaciones. Las conversaciones se procesan para generar texto y resúmenes, pero manteniendo siempre la premisa de no exponer su contenido más de lo estrictamente necesario y avisando a los participantes cuando una llamada está siendo transcrita.
Fundamentos técnicos: Foundation Models y APIs de alto nivel
En el corazón de Apple Intelligence se encuentran los Foundation Models, grandes modelos de lenguaje y multimodales diseñados para tareas variadas del día a día: resumir, extraer información, clasificar, generar texto estructurado o sostener diálogos.
Apple ha creado una nueva estructura de desarrollo llamada Foundation Models que da acceso programático a estos LLM optimizados para el dispositivo. Para un desarrollador, la experiencia puede reducirse a tres líneas de código: importar la estructura, crear una sesión y enviar un prompt al modelo.
Más allá de generar texto plano, la estructura soporta lo que llaman Guided Generation. Básicamente, puedes definir tipos de datos en tu app y marcarlos como «generables», añadiendo descripciones en lenguaje natural y restricciones de valores. El modelo rellena directamente tus estructuras sin que tengas que pelearte con JSON ni esquemas manuales.
Otra capacidad clave es la llamada a herramientas (tool calling). En lugar de limitarse a producir texto, el modelo puede decidir cuándo invocar funciones que tú defines: consultar el tiempo real, leer el calendario, acceder a información de la app o ejecutar una acción en el sistema. Esto amplía el conocimiento del modelo más allá de lo que sabía en el momento de su entrenamiento.
Hay que tener en cuenta, eso sí, que estos modelos en dispositivo no tienen tantos conocimientos ni datos recientes como un mega modelo en un centro de datos. Su entrenamiento está congelado en el tiempo, así que para casos que requieran información fresca o muy específica, conviene complementar con fuentes externas mediante herramientas o servicios en la nube.
APIs de Apple respaldadas por aprendizaje automático

Además de los Foundation Models, Apple lleva años incorporando APIs especializadas impulsadas por aprendizaje automático para tareas concretas, muchas veces con solo unas pocas líneas de código.
En el ámbito de la visión por computador está Vision, con más de 30 APIs para entender imágenes y vídeo: detección de caras, seguimiento de objetos, clasificación, reconocimiento de texto, etc. En las últimas versiones, Vision ha añadido mejoras clave como un reconocimiento de documentos más inteligente (agrupando párrafos, encabezados, tablas…) y un modo de detección de manchas en la lente que localiza suciedad que puede arruinar una foto.
Para texto y lenguaje natural, Apple ofrece Natural Language, que permite identificar el idioma, descomponer frases, etiquetar partes del discurso y detectar entidades con nombre (personas, lugares, organizaciones…). También existe el framework Translation, centrado en traducción de textos entre múltiples idiomas, muy útil cuando quieres ofrecer experiencias multilingües sin depender siempre de servicios externos.
En audio y sonido hay dos piezas importantes: Sound Analysis, para clasificar categorías de sonido (sirenas, pasos, sonidos ambientales, etc.), y Speech, para reconocimiento y transcripción de voz. Speech ha evolucionado desde SFSpeechRecognizer, pensado sobre todo para dictados cortos, a la nueva API SpeechAnalyzer, diseñada para audio más largo y flexible.
SpeechAnalyzer trabaja directamente con buffers de audio que se pasan a un nuevo modelo de voz a texto más rápido y adaptable, ideal para conferencias, reuniones, podcasts o conversaciones a distancia. Todo esto sigue ocurriendo mayoritariamente en el dispositivo, lo que encaja de lleno con el énfasis de Apple en la privacidad.
APIs generativas del sistema: imágenes, respuestas inteligentes y más
Una de las maneras más cómodas de añadir IA generativa a tus apps es apoyarte en las APIs ya integradas en el sistema operativo, sin necesidad de conectar con servicios externos ni gestionar claves de terceros.
Por ejemplo, a partir de iOS 18.4, el framework Image Playground incluye la clase ImageCreator, que permite generar imágenes por código a partir de un texto descriptivo y un estilo. Instancias el creador, envías el prompt y recibes variaciones que luego puedes mostrar o combinar como quieras en tu app.
En el campo de la mensajería, Apple ha incorporado la API de Smart Reply, que habilita respuestas inteligentes generadas desde el teclado usando el contexto de una conversación. Para usarla, la app dona un ConversationContext (para mensajes o correo) antes de que aparezca el teclado, y las sugerencias se muestran al usuario como alternativas rápidas.
En chats de mensajería instantánea, la respuesta elegida se inserta directamente en la conversación. En apps de correo, en cambio, se delega en un método tipo insertInputSuggestion, permitiendo que la app genere respuestas más largas o personalizadas basadas en esa sugerencia inicial.
Muchas de estas capacidades se «heredan» de forma casi automática al usar los controles estándar de interfaz de texto del sistema: si tu app muestra textViews o campos de escritura nativos, Apple Intelligence activa Herramientas de Escritura, Genmoji o Image Playground con poca o ninguna configuración adicional.
Cómo entrenar y adaptar modelos: Core ML, Create ML y herramientas asociadas
Cuando las APIs de alto nivel se quedan cortas, los desarrolladores pueden recurrir a Core ML, el framework base para desplegar modelos de machine learning en dispositivos Apple. Core ML trabaja con modelos en un formato propio que describe entradas, salidas, arquitectura y pesos aprendidos.
Apple mantiene en developer.apple.com un catálogo de modelos abiertos ya convertidos a Core ML, organizados por categorías, con descripción de capacidades, variantes e información de rendimiento estimado en distintos dispositivos. Además, Apple colabora con la comunidad a través de su espacio en Hugging Face, donde se publican modelos, definiciones en PyTorch y flujos de entrenamiento y ajuste.
Para convertir modelos desde frameworks como PyTorch o TensorFlow al formato de Core ML, existen las Core ML Tools, un conjunto de utilidades que no solo traducen la arquitectura, sino que aplican optimizaciones para la ejecución en el chip de Apple. Hablamos de fusiones de operaciones, eliminación de cálculos redundantes y técnicas de compresión como cuantización, poda o ajustes posteriores al entrenamiento.
Estas técnicas de compresión son opcionales y permiten explorar distintos equilibrios entre tamaño del modelo, rendimiento y precisión. Puedes probar configuraciones más ligeras para dispositivos con menos memoria, o modelos más pesados pero más precisos para entornos con más recursos.
Para quienes no quieren entrar en código de bajo nivel de inmediato, Apple ofrece Create ML, una app y framework que permiten entrenar modelos personalizados usando datos propios. Desde un clasificador de imágenes que se acopla a Vision hasta etiquetadores de texto específicos para Natural Language, pasando por modelos que amplían las capacidades de Vision Pro para seguir objetos en 6 grados de libertad en experiencias espaciales.
Xcode, despliegue y rendimiento de modelos en Apple silicon
Una vez convertido o entrenado tu modelo en formato Core ML, Xcode se convierte en tu centro de mando. El IDE permite inspeccionar las características clave del modelo, explorar su estructura completa y medir su rendimiento en dispositivos concretos conectados al Mac.
Desde Xcode puedes ver latencia de predicción estimada, tiempos de carga y dónde se ejecuta cada operación (CPU, GPU o Neural Engine). Las últimas versiones incluso ofrecen una vista gráfica de toda la arquitectura, donde es posible profundizar en cada operación y detectar cuellos de botella u oportunidades de optimización.
Al integrar el modelo en tu proyecto, Xcode genera una interfaz de tipo seguro en Swift específica para ese modelo, lo que simplifica muchísimo el código de inferencia. En vez de manejar tensores genéricos, trabajas con tipos más descriptivos y seguros en tiempo de compilación.
En tiempo de ejecución, Core ML reparte la carga entre CPU, GPU y Neural Engine de forma automática, intentando exprimir al máximo las capacidades del chip. Así, incluso modelos relativamente grandes pueden ejecutarse con latencias razonables y consumos contenidos.
Cuando necesitas un control todavía más fino sobre la ejecución, entran en juego frameworks de nivel inferior como Metal y Accelerate/BNNSGraph, que te permiten encadenar modelos Core ML con cargas gráficas personalizadas o procesado de señal en tiempo real con control estricto de memoria y latencia.
MLX: experimentación con grandes modelos en Mac con Apple silicon
En el terreno de la investigación más puntera, Apple ha lanzado MLX, una estructura para computación numérica y aprendizaje automático diseñada por sus propios investigadores y distribuida como proyecto de código abierto.
MLX está pensada para que desarrolladores y científicos puedan explorar y ejecutar grandes modelos de lenguaje (LLM) y otras arquitecturas avanzadas de manera eficiente en Mac con Apple silicon. Permite probar nuevas técnicas de inferencia, fine-tuning o entrenamiento distribuido sin depender siempre de grandes clústeres externos.
Gracias a su soporte para la arquitectura de memoria unificada de Apple silicon, MLX adopta un modelo de programación muy particular: los arrays no están ligados a un dispositivo concreto; son las operaciones las que deciden si se ejecutan en CPU o GPU, pudiendo trabajar en paralelo sobre el mismo buffer sin copias extra.
Desde la línea de comandos puedes lanzar inferencia de LLM con una sola orden, por ejemplo para generar código, clasificar textos o hacer resúmenes con longitudes de contexto amplias (1.024 tokens o más). Además, la comunidad de MLX en Hugging Face ya ofrece cientos de modelos adaptados, listos para usar con apenas una línea de código.
MLX está disponible en Python, Swift, C++ y C, y la comunidad está creando bindings para más lenguajes, lo que facilita su integración en todo tipo de proyectos. Para quien se dedica a investigación en IA, es una manera muy cómoda de mantenerse cerca de la frontera sin abandonar el ecosistema Mac.
Cómo investiga Apple la privacidad en IA: datos sintéticos y privacidad diferencial
Uno de los mayores retos de Apple en IA es que su compromiso con la privacidad complica recopilar datos reales de usuarios para entrenar grandes modelos. Aun así, la empresa necesita información sobre cómo escribimos correos, qué prompts usamos o cómo interactuamos con Genmoji para mejorar Apple Intelligence.
En una reciente publicación de Machine Learning Research, Apple detalla un enfoque para aprender de los datos de uso sin acceder directamente a contenidos privados. El truco está en combinar datos sintéticos, procesamiento en el dispositivo y técnicas de privacidad diferencial.
El proceso, aplicado por ejemplo al correo electrónico, funciona así: Apple genera múltiples emails sintéticos sobre temas comunes (invitaciones, confirmaciones, avisos, etc.), con variaciones de idioma, estilo y longitud. De cada uno se crea un archivo embebido con representaciones vectoriales.
Esos archivos se envían a un pequeño número de iPhones de usuarios que han activado voluntariamente las analíticas del dispositivo. El propio iPhone selecciona una muestra de correos reales del usuario, genera sus embeddings y compara con los sintéticos, decidiendo cuáles son más parecidos, todo ello sin enseñar a Apple los textos reales.
Mediante privacidad diferencial, Apple recoge solo qué embeddings sintéticos se han seleccionado con más frecuencia entre muchos dispositivos, y con ruido estadístico añadido para no poder trazar cada elección a una persona concreta. Con este conjunto, la empresa puede mejorar los datos sintéticos y entrenar modelos de resumen y escritura más cercanos al uso real, sin ver ni un solo correo auténtico.
Genmoji, Image Playground y mejora continua con privacidad diferencial

El mismo enfoque se aplica a funciones más lúdicas como Genmoji, la herramienta que crea emojis personalizados a partir de descripciones. Apple utiliza privacidad diferencial para identificar patrones de prompts populares, pero solo cuando estos han sido usados por cientos de personas, descartando cualquier indicación única o potencialmente identificable.
Apple asegura que no ve los Genmoji asociados a un dispositivo concreto, que los datos llegan anonimizados, que se añade ruido aleatorio para proteger la identidad de los usuarios y que no se vinculan a direcciones IP ni identificadores de cuenta.
Con estas técnicas, la compañía puede afinar los modelos que dan vida a Genmoji y a otros sistemas generativos, mejorando los resultados sin tener acceso a prompts individuales. Es un equilibrio complejo entre obtener feedback útil y mantener la confidencialidad.
La idea de Apple es extender el uso de privacidad diferencial y datos sintéticos a más ámbitos de Apple Intelligence: desde Image Playground hasta la creación de recuerdos, las herramientas de escritura o la inteligencia visual que analiza fotos y vídeos para ofrecer funciones de búsqueda o contexto.
Eso sí, solo participan en estos procesos quienes han decidido optar por el envío de analíticas de dispositivo, y cualquiera puede desactivar esa opción si prefiere no contribuir a este tipo de investigación.
Casos de uso en sensores y actividad: fusión de datos con LLM
Otra línea interesante de investigación de Apple gira en torno a cómo los LLM pueden combinar información de sensores como micrófonos y acelerómetros para reconocer actividades humanas sin entrenar un modelo específico para cada tarea.
En un estudio reciente, Apple explora lo que llaman «fusión tardía» (late fusion). La idea es que los datos de audio y movimiento se procesen primero por separado con modelos más pequeños, generando descripciones en texto y etiquetas intermedias; después, un LLM más grande recibe esos resúmenes y decide qué actividad se está realizando.
Con un conjunto de datos de actividades cotidianas (cocinar, hacer la colada, practicar deporte, etc.), los investigadores observaron que los modelos podían identificar qué hacía una persona con mucha más precisión que el azar, sin haber visto exactamente esas actividades durante su entrenamiento.
Este enfoque tiene varias ventajas: reduce la necesidad de crear un modelo nuevo para cada tipo de acción, permite trabajar con datos que pueden ser ruidosos o poco claros, y mejora la privacidad al operar sobre descripciones textuales derivadas, en lugar de audio crudo o trazas completas de movimiento.
En el ecosistema de Apple, este tipo de técnicas podrían usarse para refinar la detección de entrenos en Apple Watch, enriquecer métricas de salud o incluso implementar nuevas funciones en iPhone que detecten patrones de actividad sin depender de soluciones a medida para cada caso concreto.
Cómo se organiza Apple Machine Learning Research por equipos
Detrás de todos estos productos, frameworks y experimentos hay equipos altamente especializados repartidos en varias áreas de Machine Learning Research, tras cambios como la marcha de John Giannandrea. Apple hace bastante hincapié en la diversidad de perfiles, caminos profesionales y experiencias personales como motor de innovación.
Uno de los bloques más relevantes es el de Machine Learning Infrastructure, encargado de construir la infraestructura de cómputo, almacenamiento y análisis que soporta los proyectos de IA a gran escala. Aquí trabajan ingenieros de back-end, plataformas, sistemas y científicos de datos que diseñan herramientas para entrenar, evaluar y desplegar modelos en entornos distribuidos.
Otro grupo clave es el de Deep Learning y Reinforcement Learning, formado por investigadores e ingenieros que tocan casi todo el abanico moderno de IA avanzada: aprendizaje supervisado y no supervisado, modelos generativos, aprendizaje multimodal, aprendizaje por refuerzo profundo e inverso, teoría de decisiones y teoría de juegos.
El objetivo de estos equipos no es quedarse solo en papers, sino llevar sus avances a productos reales y escalables, desde mejoras en Siri hasta nuevas capacidades en Vision Pro o funciones inteligentes en apps del sistema.
Por último, el área de Procesamiento del Lenguaje Natural y Tecnologías del Habla agrupa a especialistas en NLP, traducción automática, reconocimiento de entidades, sistemas de pregunta-respuesta, segmentación de temas y reconocimiento de voz. Trabajan con grandes volúmenes de datos multilingües y métodos de deep learning para que las interfaces de Apple sean cada vez más naturales en multitud de idiomas.
El papel del Mac con Apple silicon en la investigación y el desarrollo
Los Mac con Apple silicon se han consolidado como plataformas muy atractivas para desarrolladores e investigadores de IA que quieren experimentar en local con grandes modelos sin montar su propio clúster.
Gracias a la combinación de CPU, GPU y Neural Engine, y a la memoria unificada, un MacBook Air o un Mac Studio pueden ejecutar inferencias de LLM y entrenar modelos moderados con consumos razonables y sin configuraciones enrevesadas. Para prototipado rápido o pruebas de nuevas arquitecturas, esto es un salto muy cómodo frente a depender siempre de servidores externos.
Estos equipos también encajan de maravilla con la filosofía de privacidad de Apple: permiten probar técnicas, modelos y pipelines completos con datos locales sin subir información sensible a la nube, algo muy valioso en ámbitos como la salud, la productividad o las comunicaciones.
Además, el hecho de que todos los Mac con Apple silicon compartan una misma arquitectura simplifica mucho desplegar soluciones: puedes desarrollar en un portátil y escalar a máquinas más potentes casi sin cambiar el código, aprovechando todas las optimizaciones del sistema.
Si sumas a esto herramientas como MLX, Core ML, Create ML y las integraciones con Xcode, se entiende por qué tantos desarrolladores de IA están girando hacia Mac como entorno principal de trabajo para experimentar con aprendizaje automático.
Todo este ecosistema —Apple Intelligence, Foundation Models, MLX, Core ML, Vision, Speech, los equipos de investigación y la obsesión por la privacidad mediante ejecución en el dispositivo y técnicas como la privacidad diferencial— dibuja una estrategia muy clara: Apple quiere que la IA sea útil, ubicua y potente, pero también discreta, responsable y profundamente respetuosa con los datos de las personas que la usan cada día.