Stanford U y el marco de capacitación analítico convexo de Google mejoran la comprensión y la optimización del transformador

Aunque el notable poder y los éxitos de las arquitecturas de transformadores han sido bien documentados por la comunidad de investigación de aprendizaje automático en los últimos años, sigue faltando literatura que proporcione un análisis teórico riguroso de las redes de transformadores e interpretaciones de las funciones aprendidas.

en el nuevo periodico Transformadores convexificados: mejore la optimización y la comprensión de las redes de transformadoresun equipo de investigación de la Universidad de Stanford y Google proporciona un análisis teórico sólido de los mecanismos fundamentales de los transformadores y presenta un nuevo marco de entrenamiento analítico convexo para mejorar su optimización.

El equipo resume sus principales contribuciones de la siguiente manera:

Proponemos una formulación alternativa al mecanismo estándar de autoatención y estudiamos con ella el problema de la formación regularizada de redes de atención/transformación.
Convexificamos el problema de entrenamiento regularizado de las redes de atención/transformador con la capa de atención propuesta y, por lo tanto, permitimos encontrar una solución globalmente óptima sin requerir ninguna heurística de optimización no convexa, por ejemplo, normalización de capa y conexiones de salto.
También aplicamos nuestro marco analítico convexo a varias arquitecturas, por ejemplo, redes con o sin una capa FCN. Por lo tanto, podemos explicar el impacto de cada componente en los modelos aprendidos a lo largo del entrenamiento.
Revelamos un mecanismo de regularización implícito inducido por nuestro mecanismo de atención. Además, caracterizamos esta regularización como un factor que induce parsimonia entre tokens.
Demostramos la efectividad de nuestra reformulación convexa a través de varios resultados experimentales. También mostramos que nuestra reformulación atenúa significativamente el fenómeno de grokking estudiado en artículos recientes (Power et al., 2022; Thilak et al., 2022).

READ Los científicos encuentran una pieza antigua de la corteza terrestre de 4 mil millones de años debajo de Australia Occidental

El equipo primero propone una alternativa convexa al mecanismo de autoatención del transformador y reformula la formación del modelo como un problema de optimización convexa. La reformulación convexa propuesta ofrece muchas ventajas: permite a los investigadores optimizar globalmente sus parámetros de red sin heurísticas de optimización no convexa, las funciones aprendidas son transparentes e interpretables y proporciona información sobre las estructuras de las funciones resultantes y sus propiedades de generalización.

En sus estudios empíricos, el equipo comparó su enfoque de entrenamiento convexo propuesto con el entrenamiento no convexo estándar en un entorno de estudiante-maestro con un modelo BERT preentrenado y con redes de transformadores estándar con mecanismos de autoatención en conjuntos de datos algorítmicos. Los resultados muestran que el entrenamiento convexo converge a una precisión de generalización perfecta 10 veces más rápido que el entrenamiento no convexo estándar y con pérdidas de prueba significativamente menores.

En general, este trabajo ofrece una visión positiva de los mecanismos ocultos de las redes de transformadores, que el equipo espera que los documentos de seguimiento puedan aprovechar para seguir avanzando en esta importante área de investigación.

El papel Transformadores convexificados: mejore la optimización y la comprensión de las redes de transformadores está sobre arXiv.

Autor: Hécate He | Editor: Michel Sarazen

Sabemos que no quiere perderse ninguna noticia o avance de investigación. Suscríbete a nuestro popular boletín IA global sincronizada semanal para recibir actualizaciones semanales de IA.

valencia jiminez

“Adicto a la televisión total. Experto en viajes. Gurú de Twitter. Evangelista de tocino. Creador galardonado. Aficionado al alcohol. Fanático de la música. Solucionador de problemas”.

READ El cúmulo de galaxias distorsiona el espacio y el tiempo, dice el telescopio James Webb

Stanford U y el marco de capacitación analítico convexo de Google mejoran la comprensión y la optimización del transformador

Así:

More Stories

Radio Centro: Llega el drástico cambio de WhatsApp en España: las condiciones que deberás aceptar si quieres seguir usando la aplicació

¿Se ha estrellado una pieza de la Estación Espacial Internacional contra una casa en Florida? – Radio Centro

Radio Centro: Conoce Nocturnal Vapor, el nuevo control de Xbox con un diseño enigmático

Deja una respuesta Cancelar la respuesta

Un magazine online con toda la información

La evolución de las máquinas tragamonedas: de los carretes mecánicos a la dominación digital.

Investigadores de la UGR demuestran el efecto positivo de la melatonina en la prevención de la obesidad

Sorteo de la Bonoloto del martes 16 de abril de 2024 – Radio Centro