UNA GENERACIÓN DE CÓDIGO BASADA EN LLM: UNA REVISIÓN SISTEMÁTICA DE TÉCNICAS, MÉTRICAS Y EVALUACIÓN EMPÍRICA

Jorge Bergman Mostajo Pedraza

doi:10.23670/FT.2026.1.31

Vol. 2 Núm. 1 (2026), Artículos de Revisión

Vol. 2 Núm. 1 (2026)

UNA GENERACIÓN DE CÓDIGO BASADA EN LLM: UNA REVISIÓN SISTEMÁTICA DE TÉCNICAS, MÉTRICAS Y EVALUACIÓN EMPÍRICA

Artículos de Revisión

Publicado 12-06-2026

Jorge B. Mostajo P.⁺⁻

Jorge B. Mostajo P.

https://orcid.org/0009-0008-5068-3096

GENERACIÓN DE CÓDIGO BASADA EN LLM: UNA REVISIÓN SISTEMÁTICA DE TÉCNICAS, MÉTRICAS Y EVALUACIÓN EMPÍRICA

PDF

Palabras clave

Modelos de lenguaje a gran escala
Generación automática de código
NL2Code
Ingeniería de software
.NET
Revisión Sistemática de la Literatura (SLR)
Ingeniería de prompts
Sistemas agénticos
Métricas de evaluación de código

Cómo citar

UNA GENERACIÓN DE CÓDIGO BASADA EN LLM: UNA REVISIÓN SISTEMÁTICA DE TÉCNICAS, MÉTRICAS Y EVALUACIÓN EMPÍRICA. (2026). Revista Científica "Fronteras Tecnológicas", 2(1), 12. https://doi.org/10.23670/FT.2026.1.31

Resumen

Esta revisión sistemática de la literatura (SLR) analiza de forma crítica la evidencia científica sobre el uso de modelos de lenguaje a gran escala (LLMs) para la generación de código en ingeniería de software, con especial atención a su aplicabilidad en el ecosistema .NET. La búsqueda se realizó en cinco bases de datos (IEEE Xplore, ACM Digital Library, Google Scholar, Semantic Scholar y arXiv) siguiendo el protocolo PRISMA, identificando 7,159 registros iniciales. Tras las fases de cribado, elegibilidad y evaluación de calidad, se seleccionaron 40 estudios primarios publicados entre 2020 y 2025. Los resultados muestran que el prompt engineering constituye la técnica dominante (72.5%), mientras que el fine-tuning y el preentrenamiento especializado actúan como estrategias complementarias (40%). Asimismo, se identifica una tendencia emergente hacia sistemas agénticos, en los que los LLMs evolucionan de generadores de código a componentes capaces de orquestar herramientas y resolver tareas a nivel de repositorio. En cuanto a la evaluación, se observa una fuerte dependencia de métricas automáticas como pass@k y benchmarks sintéticos, particularmente HumanEval, lo que introduce un sesgo sistemático en la estimación del rendimiento.
El estudio identifica una brecha estructural —denominada benchmark saturation gap— entre el rendimiento reportado en benchmarks sintéticos y el desempeño en escenarios reales, evidenciada por resultados significativamente inferiores en benchmarks más representativos como BigCodeBench y SWE-bench. Adicionalmente, se confirman limitaciones persistentes, incluyendo alucinaciones de código, vulnerabilidades de seguridad y degradación de la calidad. Finalmente, se identifican brechas críticas en la literatura, destacando la ausencia de estudios específicos en el ecosistema .NET/C#, la escasez de evaluaciones longitudinales y la falta de marcos de medición en contextos de alta madurez. Estos hallazgos evidencian la necesidad de redefinir los enfoques de evaluación y de adaptar las prácticas de desarrollo para una integración efectiva y confiable de LLMs en entornos reales de ingeniería de software.

PDF