Meta ha anunciado el lanzamiento de cinco nuevos modelos de investigación en inteligencia artificial (IA) de su equipo Fundamental AI Research (FAIR), incluyendo innovaciones en generación de imagen a texto, generación de texto a música, predicción multi-token, y detección de habla generada por IA.
En un esfuerzo por fomentar la colaboración con la comunidad global de IA y avanzar en la investigación abierta, Meta ha compartido algunos de los modelos más recientes desarrollados por su equipo de investigación FAIR. Entre estos se incluyen modelos de generación de imagen a texto, generación de texto a música, un modelo de predicción multi-token y una técnica novedosa para detectar el habla generada por IA. Con esta liberación pública, Meta busca inspirar nuevas iteraciones y contribuir al avance de la IA de manera responsable.
Camaleón: Generación de Texto e Imágenes
Meta ha lanzado componentes clave de sus modelos Chameleon bajo una licencia de investigación. Chameleon es una familia de modelos mixtos capaces de entender y generar tanto imágenes como texto. A diferencia de la mayoría de los modelos de lenguaje grandes que suelen ser unimodales, Chameleon puede tomar combinaciones de texto e imágenes como entrada y producir combinaciones similares como salida. Esta capacidad abre posibilidades como la generación de subtítulos creativos para imágenes o la creación de escenas nuevas utilizando una mezcla de indicaciones textuales e imágenes.
Predicción Multi-Token: Una Revolución en el Entrenamiento de Modelos de Lenguaje
Los modelos de lenguaje grandes (LLMs) se entrenan tradicionalmente para predecir la siguiente palabra en una secuencia de texto, lo cual puede ser ineficiente. En abril, Meta propuso un enfoque nuevo utilizando predicción multi-token, que entrena a los modelos para predecir múltiples palabras futuras simultáneamente, acelerando el proceso de entrenamiento. Meta ha liberado estos modelos pre entrenados para completar el código bajo una licencia de investigación no comercial.
JASCO: Mejor Control en la Generación de Música
El modelo JASCO de Meta ofrece un control superior sobre la generación de música a partir de texto. A diferencia de los modelos actuales como MusicGen, que dependen principalmente de entradas textuales, JASCO puede aceptar diversas entradas, como acordes o ritmos, mejorando el control sobre los resultados musicales generados. Este modelo permite la incorporación tanto de símbolos como de audio en la generación de música, y se ha demostrado que ofrece una calidad comparable a los modelos de referencia evaluados.
AudioSeal: Detección de Habla Generada por IA
AudioSeal es la primera técnica de marca de agua de audio diseñada específicamente para la detección localizada de habla generada por IA. Esta técnica permite identificar segmentos generados por IA dentro de un fragmento de audio más largo, mejorando la velocidad de detección en hasta 485 veces en comparación con métodos anteriores. AudioSeal está disponible bajo una licencia comercial y forma parte de los esfuerzos de Meta para prevenir el uso indebido de herramientas generativas de IA.
Fomento de la Diversidad en Sistemas de Generación de Imágenes
Para asegurar que los modelos de generación de imágenes funcionen bien para todos y reflejen la diversidad geográfica y cultural del mundo, Meta ha desarrollado indicadores automáticos para evaluar disparidades geográficas en estos modelos. Además, realizaron un estudio de anotación a gran escala, recolectando más de 65,000 anotaciones para mejorar la representación en las imágenes generadas por IA. Meta ha publicado el código de evaluación y las anotaciones, esperando que la comunidad mejore la diversidad en sus modelos generativos.
Con estos lanzamientos, Meta reafirma su compromiso con la investigación abierta y la colaboración global en el campo de la inteligencia artificial. Al compartir estos modelos y técnicas innovadoras, Meta busca no solo avanzar en la tecnología de IA, sino también garantizar que su desarrollo se realice de manera ética y responsable.
Relacionado