Precisión de grandes modelos de lenguaje de inteligencia artificial (IA) al resolver el Examen Nacional de Odontología ENAO 2024

Torres Ramirez, Jesely Haritz

Precisión de grandes modelos de lenguaje de inteligencia artificial (IA) al resolver el Examen Nacional de Odontología ENAO 2024

Torres Ramirez, Jesely Haritz

URI: https://hdl.handle.net/20.500.12866/17067

Fecha: 2025

Resumen:

Introducción: La inteligencia artificial (IA) ha revolucionado diversas disciplinas, incluida la odontología. Los Grandes Modelos de Lenguaje han demostrado potencial en el procesamiento de información, pero su precisión en evaluaciones estandarizadas como el Examen Nacional de Odontología (ENAO) en Perú no ha sido ampliamente estudiada. Objetivo: Comparar la precisión de los modelos de IA Claude 3.5 Sonnet, ChatGPT-4o, Perplexity y Copilot en la resolución de preguntas del ENAO 2024. Métodos y Materiales: Estudio transversal. Fue realizado basado en 200 preguntas del solucionario oficial del ENAO 2024. Se incluyeron preguntas con redacción clara y única alternativa correcta, excluyendo aquellas incompletas o con errores. Las variables analizadas fueron los modelos de IA, áreas temáticas del ENAO 2024 y las preguntas del examen. Las respuestas generadas por los modelos de IA se compararon con el solucionario oficial del examen. Se utilizó la prueba Chi-cuadrado (p < 0.001). Resultados: ChatGPT-4o obtuvo la mayor precisión (93.5 %), seguido de Claude 3.5 Sonnet (89.5 %). Perplexity y Copilot alcanzaron un desempeño inferior y similar (77 %). La mayor precisión se observó en especialidades como Investigación y Gerencia de Servicios de Salud, mientras que la menor se registró en Endodoncia y Rehabilitación Oral. Conclusión: Los modelos de IA lograron aprobar el ENAO 2024, destacando en preguntas teóricas, pero con menor precisión en áreas clínicas. ChatGPT-4o y Claude 3.5 Sonnet demostraron mejor desempeño, lo que sugiere su potencial como herramientas complementarias en la educación odontológica.

Introduction: Artificial intelligence (AI) has revolutionized various disciplines, including dentistry. Large Language Models have shown potential in information processing, but their accuracy in standardized evaluations such as the National Dentistry Exam (ENAO) in Peru has not been widely studied. Objective: To compare the accuracy of the AI models Claude 3.5 Sonnet, ChatGPT-4o, Perplexity, and Copilot in answering questions from the 2024 ENAO. Materials and Methods: A cross-sectional study was conducted using 200 questions from the official answer key of the 2024 ENAO. Only questions with clear wording and a single correct answer were included; incomplete or erroneous questions were excluded. The variables analyzed were the AI models, thematic areas of the 2024 ENAO, and the exam questions. The answers generated by the AI models were compared with the official answer key. The Chi-square test was used (p < 0.001). Results: ChatGPT-4o obtained the highest accuracy (93.5 %), followed by Claude 3.5 Sonnet (89.5 %). Perplexity and Copilot achieved lower and similar performance (77 %). The highest accuracy was observed in theoretical specialties such as Research and Health Services Management, while the lowest was recorded in Endodontics and Oral Rehabilitation. Conclusion: The AI models successfully passed the 2024 ENAO, performing best on theoretical questions but showing lower accuracy in clinical areas. ChatGPT-4o and Claude 3.5 Sonnet demonstrated better performance, suggesting their potential as complementary tools in dental education.

Mostrar el registro completo del ítem