De la generacion pasiva a la generacion con metacognicion. Iteracion, auto-critica y refinamiento en modelos de lenguaje modernos.
Nota terminologica: Este tutorial usa "Recursive Language Model" como analogia para self-refinement. El termino academico oficial (Zhang et al., 2025) define un paradigma diferente para procesar contextos largos via REPL + recursion programatica sobre el input. Ver diferencias ->
Tu tutorial usa "RLM" como marca conceptual, pero en papers e industria no hay un termino unico. Estos son los nombres reales que encontraras:
El modelo genera output, luego se evalua a si mismo y produce una version mejorada. Termino del paper Self-Refine (Madaan et al., 2023).
Usar mas compute en inference, no solo en entrenamiento. Mas "pensamiento" durante la prediccion. Paper clave: Snell et al. (2024).
Modelos entrenados expresamente para razonar paso a paso antes de responder. o1, o3, DeepSeek-R1, Gemini 2.5 Flash Thinking.
Recompensar (o verificar) cada paso del razonamiento, no solo el resultado final. PRM vs ORM.
La idea de que un LLM revise su propio output no surgio de la noche a la manana. Es el resultado de 4 anos de investigacion incremental:
Tu tutorial muestra un loop explicito: generar -> criticar -> reescribir, paso a paso. Pero los modelos comerciales de 2025 usan un enfoque diferente.
Representantes: Self-Refine (2023), Reflexion (2023), el demo de este tutorial.
Ventaja: Facil de entender e implementar con cualquier LLM via prompting.
Limitacion: Cada paso consume context window. La critica puede ser debil si el modelo no fue entrenado para criticar.
Representantes: OpenAI o1/o3, DeepSeek-R1, Gemini 2.5 Flash Thinking, Qwen QwQ.
Ventaja: No hay overhead de contexto entre pasos. La autocorreccion es fluida y natural dentro del pensamiento. Consume mas tokens pero es un solo forward pass logico.
Como se entrena: RL sobre reasoning traces correctos (GRPO para R1, PPO/RL con PRM para o1).
Tu tutorial menciona RLHF y DPO. En 2025, el panorama es mas rico. Todos los LLMs siguen siendo "predictores de siguiente token" a nivel base. La diferencia esta en el fine-tuning.
Humano rankea respuestas, luego PPO entrena una policy. Usado por ChatGPT y Claude originales. Limitacion: costoso, sesgado, no escala perfecto.
Direct Preference Optimization. Sin RL explicito, optimiza directamente sobre pares ganador/perdedor. Simple y efectivo para alineacion basica.
Group Relative Policy Optimization. Para un mismo prompt, genera un grupo de respuestas, las compara entre si, y recompensa relativamente. Clave de DeepSeek-R1.
En matematicas/codigo, no necesitas un reward model humano. Un verificador simbolico (solucion correcta o no) da la recompensa directamente. Gratis y exacto.
Para tareas verificables (matematicas, codigo, puzzle juegos): usa rule-based verification. Es gratuito, exacto y elimina la necesidad de reward models entrenados. Para tareas abiertas (escritura, opinion): necesitas ORM/PRM o jueces humanos.
Tu tutorial asume que la auto-correccion siempre mejora. La literatura dice: depende. Y a veces empeora.
"Large Language Models Cannot Self-Correct Reasoning Yet". Demuestran que LLMs sin acceso a ground truth no pueden auto-corregir su razonamiento. La "self-correction" sin verificador externo es, estadisticamente, ruido.
Regla practica: auto-correccion = mejora SOLO cuando existe un verificador externo confiable.
Tu tutorial original tenia un pseudocodigo correcto como ilustracion, pero impreciso en detalles. Esta version distingue verificacion por reglas, ORM y PRM:
critique como input. Toma el draft.Todos estos modelos operan en el paradigma "reasoning" (implicito o explicito):
La diferencia no es el entrenamiento base โ ambos son predictores de siguiente token. La diferencia es:
Esta demo simula el paradigma EXPLICITO (Self-Refine style) con 3 iteraciones. El paradigma implicito (o1/R1) no se puede simular asi: es un solo stream largo.
Los Self-Refining Language Models โbajo cualquier nombreโ representan un desplazamiento fundamental: de generar en un paso a generar con proceso. Pero el campo tiene matices importantes que tu tutorial original omitia:
Importante: "Recursive Language Model" es un termino academico real (Zhang et al., 2025) pero define un paradigma diferente: REPL externo + recursion programatica sobre slices del input para procesar contextos de 10M+ tokens. Ver seccion de abajo para detalles.
El futuro no es generar mas rapido. Es generar, razonar, verificar โ y generar mejor.