Introducción
Actualmente, existe un creciente interés por parte de los responsables de las revistas científicas para llevar a cabo periódicamente procesos de evaluación de esos medios de divulgación con el fin de promover su calidad (Borrego y Urbano, 2006). En concordancia con esta idea, desde el año 2020 se empezó a trabajar en la mejora de los procesos editoriales de una revista arbitrada e indexada con reconocimiento internacional con el fin de garantizar la calidad de sus manuscritos, los cuales son producidos por investigadores, profesores y estudiantes de diversos campos de la ingeniería.
Según Vildózola (2003), para alcanzar una gestión editorial de prestigio, los manuscritos recibidos deben pasar por un proceso de evaluación enfocado en la estructura, redacción y calidad científica de dichos textos, para lo cual es importante contar con instrumentos que faciliten su proceso de evaluación. En tal sentido, Elosua (2003) considera que el propósito de las investigaciones centradas en el tema de validez debe ser recolectar evidencias suficientes para la correcta toma de decisión en la interpretación de los datos analizados.
Salas (1998) argumenta que el significado de validez corresponde a lo que se quiere medir por parte de un instrumento contra lo que realmente se está evaluando, lo cual debe ser comparado para verificar que se ha cumplido con las exigencias solicitadas. Así pues, la validez -según García (2002) - se asocia con la consistencia de las situaciones necesarias en la que un acto sucede en su vigencia y autenticidad. La Asociación Estadounidense de Investigación Educativa -también conocida como AERA-señala que, de acuerdo con sus estándares, la validez es referida al nivel de congruencia que existe con la conjetura que apoya a la propia herramienta de medición y la certidumbre experimental obtenida en su implementación. Aiken (2003), sin embargo, objeta que el significado de autenticidad de un tema es referido a un banco de datos, los cuales son medidos por un instrumento que debe brindar un resultado confiable. Rodríguez y Sossa (2004) mencionan que la validez se divide de este modo: validez de contenido, validez de criterio, validez de apariencia y validez de constructo. Para Piratoba (2011) la fiabilidad junto con la validez son los criterios que fijan la calidad de un instrumento.
Por tal motivo, la presente investigación tiene como objetivo analizar la validez de contenido por criterio de jueces de un instrumento para evaluar un manuscrito, para lo cual se empleó la selección de expertos. En tal sentido, se aplicó la norma NC 49:1981 con el fin de conocer el número de árbitros necesarios para cumplir con el estudio, y se aplicó la técnica Delphi, adecuada para el contraste de la hipótesis (Ortega, 2008).
Asimismo, se usó la herramienta gratuita Formulario de Google, que sirve para obtener mayores beneficios en cuanto a su empleo (Lorenzo et al., 2017). Para la valoración de los resultados de los jueces se utilizó la prueba no paramétrica de Friedman debido a que es la que se recomienda cuando se comparan tres o más muestras relacionadas (Berlanga y Rubio, 2012). Los resultados obtenidos aportan información consistente de la existencia de un acuerdo significativo entre los expertos.
Metodología
Participantes
Para el estudio se seleccionó de forma no probabilística y discrecional a las personas que fungieron como jueces, las cuales cuentan con el conocimiento y la experiencia en el tema. Se empleó la norma cubana NC 49:1981 para determinar el número de expertos.
En la investigación se estableció como vía fundamental para la comunicación el correo electrónico, y para la contestación del instrumento se empleó la herramienta Formularios de Google. Durante el transcurso del estudio se mantuvo contacto con cada uno de los jueces para responder sus dudas y comentarios. Los integrantes seleccionados forman parte del comité de la revista, lo cual facilitó el propósito de la investigación; además, se adquirió una discusión colectiva con incidencia directa o indirecta en la objetividad de sus juicios.
Método
En el presente estudio se empleó un enfoque cuantitativo, no experimental, transversal y descriptivo. Cuantitativo porque se partió de una problemática que, para desarrollarla y culminarla con éxito, requería de un orden en su ejecución. Descriptivo porque se buscó conocer la problemática estudiada y el comportamiento de las variables inmiscuidas exponiendo los resultados recabados. Transversal porque en un tiempo determinado se analizó, por medio de instrumentos de evaluación, la problemática de una manera real, y no experimental porque las variables involucradas en el estudio no fueron manipuladas.
Procedimiento
La investigación se desarrolló en tres fases sugeridas por Poblano et al. (2019), García et al. (2021) y Rodríguez et al. (2021). En la primera se elaboraron las bases teóricas, para lo cual se inició con el planteamiento del estudio. Posteriormente, se desarrollaron el alcance y la justificación; además, se plantearon el propósito y el problema, los cuales en conjunto guiaron la presente investigación. En esta etapa se buscaron antecedentes con el fin de conocer la situación actual del tópico en la literatura existente. La información adquirida se consiguió en repositorios confiables como Redalyc, Scielo, Latindex, Google Académico, etc. Los criterios de selección fueron los siguientes: 1) el material debía incluir el tópico del estudio indagado, y 2) se revisaron libros académicos, así como artículos escritos en español e inglés publicados en revistas arbitradas e indexadas.
En la segunda etapa se procedió a desarrollar la validez, lo cual se efectuó con el apoyo de árbitros a quienes se les invitó a participar en la investigación. Para esto se aplicó el método Delphi. En concreto, se contó con la intervención de ocho jueces, los cuales forman parte de la revista.
En la tercera fase se implementaron las pruebas de validez de contenido con los árbitros seleccionados. Para que el estudio fuera objetivo, a cada juez se le garantizó el apoyo y la privacidad del estudio. Culminado el estudio y recolectada toda la información, se procedió al cálculo de la validez de contenido, para lo cual se aplicó el parámetro Friedman con el fin de determinar las diferencias en la ubicación central (mediana) para el análisis de ensayos con medidas repetidas unidireccionales que tienen tres o más muestras dependientes. Se plantearon las siguientes hipótesis para poder establecer el valor p, el cual ayudó a fijar el grado de acuerdo entre las personas (expertos) que intervinieron en el estudio. Las hipótesis fueron:
H0: X∼N (μ, σ2)
H1: X≁N (μ, σ2)
Resultados
La primera parte consistió en la identificación de las variables que debía contener la evaluación de un manuscrito, por lo que se llevó a cabo una revisión teórica de varios instrumentos de evaluación de contribuciones en México y en otras partes del mundo. Se realizó un consenso de los criterios encontrados para después solicitar a tres integrantes de la revista la valoración de las variables localizadas en la revisión de literatura con el fin de que emitieran su opinión y sugerencias. El resultado de esta fase fue obtener el primer borrador del instrumento de evaluación, que incluyó cuatro criterios y dieciocho condiciones de calidad (Tabla 1).
CONSTRUCTOS | ASPECTOS POR EVALUAR |
ENCABEZADO |
|
RESUMEN |
|
ESTRUCTURA |
|
EVALUACIÓN |
|
Fuente: Elaboración propia
En la fase del diseño del instrumento de evaluación se tomaron en cuenta las recomendaciones de los integrantes de la revista. Las sugerencias fueron de complemento para algunos criterios preestablecidos, los cuales se volvieron a actualizar, así como de cambios en algunas oraciones para facilitar su comprensión (Tabla 2).
Aspecto por evaluar | Descripción | |
Encabezado | Titulo | El título se encuentra escrito en idioma español y contiene en su extensión de 16 a 18 palabras claves. |
Autor | Se señala la formación académica y el nombre completo de la persona. | |
Institución | Se identifica la dirección completa de la institución de procedencia de la persona. | |
Correo electrónico | Se estipula la cuenta de correo de la persona. | |
Resumen | En español | Responde a las preguntas ¿qué se hizo?, ¿cómo se hizo? y ¿a qué resultados llegó? Contiene una extensión máxima de 350 palabras. |
Palabras claves | Contiene de 3 a 7 palabras escritas en idioma español. | |
En inglés (abstract) | Se encuentra traducido al idioma inglés. | |
En inglés (key words) | Se encuentran traducidas al idioma inglés. | |
Estructura | Introducción | Se señalan las referencias del tópico y el problema de estudio. Se estipula el propósito del trabajo con énfasis en la justificación de la contribución presentada. |
Desarrollo | Se relata con entendimiento la metodología manejada; además, se incluyen cálculos que sustenten la contribución presentada. | |
Análisis de resultados | Se expresa fácilmente y con una lógica los resultados logrados; además, estos responden al propósito de la investigación. | |
Conclusiones y discusión | Se pronuncia claramente y se discuten las evidencias con otros estudios; además, se adhieren datos para futuras investigaciones. | |
Referencias | Se presentan extraídas de fuentes confiables, se contabilizan al menos 20 y se ajustan a la norma Vancouver. | |
Extensión | La conformación de la contribución cumple de 10 a 12 páginas, teniendo en cuenta un total máximo de 5 figuras y 5 tablas. | |
Evaluación | Dimensión | La contribución posee una lógica en su contenido, es novedosa y aporta al ámbito de la disciplina. |
Recomendación | La contribución debe de aceptarse como se presenta, debe de tener correcciones significativas, debe de poseer una revisión estricta o debe de no aceptarse. | |
Comentarios adicionales | La contribución debe de incluir alguna recomendación por usted. De ser afirmativa su respuesta, por favor estipular su opinión. | |
Identificación del juez | Presenta el visto bueno y el nombre del árbitro. |
Fuente: Elaboración propia
En la etapa de validación del instrumento de evaluación por expertos, primero se determinó la cantidad de personas que deberían participar en el estudio. Para establecer dicho número Lao, Pérez y Marrero (2016) recomiendan seguir el procedimiento aprobado por la Oficina Nacional de Normalización, y estipulada por la NC 49:1981, la cual refiere que, para lograr un nivel de confianza y calificación elevada, el grupo de expertos debe oscilar entre 7 y 15. Para el estudio se empleó una proporción estimada de error (P) de 0.05, un nivel de confianza (K) de 95 % y un nivel de precisión (i) de 0.15. El resultado arrojado fue de 8 expertos para la validación de contenido de la presente investigación.
La consulta se realizó a 11 personas que forman parte del equipo de la revista. Una vez completado el estudio, 8 jueces lograron un coeficiente de competencia aprobatorio, dado que sus resultados se ubicaron entre medio y alto, lo cual -según Cruz (2006) y Hernández y Robaina (2017) - los hace formar parte del equipo de expertos para evaluar el instrumento de esta investigación. La Tabla 3 representa el resultado final del método Delphi
RESULTADO FINAL MÉTODO DELPHI | |||||
K = 0.5 x ( Kc + Ka ) | |||||
EXPERTO | Ka | Kc | K | Resultado | Decisión |
1 | 0.90 | 1.05 | 0.975 | Alta valoración | Sí |
2 | 0.70 | 0.95 | 0.825 | Alta valoración | Sí |
3 | 0.80 | 0.65 | 0.725 | Media valoración | No |
4 | 0.90 | 0.95 | 0.925 | Alta valoración | Sí |
5 | 0.50 | 0.95 | 0.725 | Media valoración | No |
6 | 0.80 | 0.95 | 0.875 | Alta valoración | Sí |
7 | 0.50 | 0.85 | 0.675 | Baja valoración | No |
8 | 0.80 | 1.05 | 0.925 | Alta valoración | Sí |
9 | 0.90 | 1.05 | 0.975 | Alta valoración | Sí |
10 | 0.80 | 0.95 | 0.875 | Alta valoración | Sí |
11 | 0.90 | 0.95 | 0.925 | Alta valoración | Sí |
Fuente: Elaboración propia con base en Cruz (2006) y Hernández y Robaina (2017)
Una vez analizado los resultados de la tabla anterior, se solicitó al grupo de 8 expertos que evaluaran la lista de cotejo en cuatro diferentes áreas: suficiencia, relevancia, claridad y coherencia (Escobar y Cuervo, 2008). La Figura 1 representa la encuesta que se envió vía Formulario de Google.
La técnica Delphi -según van Der et al. (2002) - ayuda a obtener una sinergia entre los participantes. La Figura 2 representa información suministrada por Escobar y Cuervo (2008), la cual está conformada por clases y criterios utilizados para valorar un instrumento.
A manera de ejemplo, en relación con el criterio coherencia, los expertos calificaron a cada ítem con un valor (entre 1 y 4) según consideraron correcto o conveniente (Tabla 4).
CRITERIO | EXPERTOS | ÍTEMS | ||||||||||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | ||
COHERENCIA | 1 | 3 | 3 | 4 | 3 | 3 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 |
2 | 3 | 2 | 4 | 4 | 3 | 2 | 4 | 4 | 3 | 2 | 4 | 4 | 3 | 2 | 4 | 4 | 4 | |
3 | 3 | 4 | 2 | 4 | 3 | 4 | 2 | 4 | 3 | 4 | 2 | 4 | 3 | 4 | 2 | 4 | 3 | |
4 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 2 | 3 | 3 | 3 | 4 | 3 | 3 | 3 | 4 | |
5 | 3 | 4 | 2 | 4 | 3 | 4 | 2 | 4 | 3 | 4 | 2 | 4 | 3 | 4 | 2 | 4 | 4 | |
6 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 3 | |
7 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 2 | |
8 | 2 | 2 | 3 | 2 | 2 | 2 | 3 | 2 | 2 | 2 | 3 | 2 | 2 | 2 | 3 | 2 | 3 |
Fuente: Elaboración propia
Posteriormente, los datos de la Tabla 4 se analizaron estadísticamente con la ayuda del software SPSS (Statistical Package for Social Science), versión 22, para medir la distribución que siguen los datos cuantitativos, la cual Flores, Miranda y Villasís (2017) señalan que debe analizarse para precisar si poseen un comportamiento normal. Para ello, se aplicó la prueba de normalidad, la cual es recomendable para determinar si existe una distribución normal o no (Argote, 2009).
La Tabla 5 muestra los resultados arrojados por el software SPSS. Para ello, se siguió la recomendación de Galindo (2020), quien señala que cuando se tiene una muestra mayor de 50 datos, la prueba que se debe emplear es la Kolmogorov Smirnov. Las hipótesis formuladas fueron las siguientes:
H0: La muestra no simboliza discrepancia significativa
H1: La muestra sí simboliza discrepancia significativa
El resultado mostrado en la Tabla 5, en la columna Sig. (es decir, 0.000) es inferior a 0.05, por lo que se tiene que rechazar la hipótesis H0; en consecuencia, se debe elegir la hipótesis nula (H1), lo que significa que la muestra de datos no sigue una distribución normal. La Tabla 6 representa los valores para los tres criterios restantes: suficiencia, claridad y relevancia.
Kolmogorov-Smirnova | |||
Estadístico | Gl | Sig. | |
Sufiencia | .263 | 272 | .000 |
Claridad | .302 | 272 | .000 |
Relevancia | .304 | 272 | .000 |
Fuente: Elaboración propia
Los efectos conseguidos de los tres criterios por medio del software SPSS dan como resultados un valor menor a 0.05; por tal motivo, para cada criterio se rechaza la hipótesis H0 y se selecciona la hipótesis H1, con lo cual se puede afirmar que la distribución no sigue una distribución normal.
Para aplicar la prueba de Friedman en el criterio coherencia, el nivel de significancia que se manejó fue 0.05, el cual -según Juárez (2015) - es el mínimo aceptable establecido en ciencias sociales y en psicología. Las hipótesis planteadas fueron las sugeridas por Ramírez, Murcia y Castro (2014):
H0: X∼N (μ, σ2)
Hl: X≁N (μ, σ2)
De la misma manera, se procedió a llevar a cabo la prueba de Friedman para los criterios suficiencia, claridad y relevancia. En la Tabla 7 se exhiben los efectos emanados para cada criterio.
Criterios | ||||
Coherencia | Suficiencia | Claridad | Relevancia | |
N | 8 | 8 | 8 | 8 |
Chi-cuadrado | 20.296 | 25.621 | 26.022 | 22.257 |
Gl | 33 | 33 | 33 | 33 |
Sig. asintótica | .959 | .817 | .801 | .922 |
Fuente: Elaboración propia
Los resultados enseñados en la Tabla 6 -en el renglón Sig. Asintótica- muestran valores mayores que 0.05; por lo tanto, se sigue la recomendación de Guisande, Vaamonde y Barreiro (2013), según la cual no existe certeza bastante para no objetar la hipótesis nula (H0), y se asevera que, entre las opiniones de los árbitros, existe un acuerdo significativo en los cuatro criterios.
Discusión
La metodología Delphi resultó ser una técnica muy útil en el estudio de un consenso de árbitros, resultado similar a lo reportado por Wright et al. (1996), León y Montero (2003) y Calabuig y Crespo (2009). Asimismo, el análisis estadístico de la presente investigación en sus cuatro criterios para la validez de contenido (coherencia, suficiencia, claridad y pertinencia), para cada uno de ellos el estadístico de prueba Sig. asintótica tuvo un valor mayor a 0.050, y soporta la afirmación de Ramírez y Polack (2020), quienes mencionan que no existe evidencia suficiente para rechazar H0, dado que el valor Sig. asintótica es mayor que el nivel de alfa de 0.050. Está afirmación puede sustentarse por lo descrito por los autores Quispe et al. (2019) quienes sugieren comparar los resultados de chi cuadrada y la chi crítica. Para la toma de decisión de no rechazar H0, la chi crítica debe ser mayor a la chi cuadrada. En la Tabla 8 se presentan los resultados obtenidos.
Criterios | ||||
Coherencia | Suficiencia | Claridad | Relevancia | |
N | 8 | 8 | 8 | 8 |
Chi cuadrada | 20.296 | 25.621 | 26.022 | 22.257 |
gl | 33 | 33 | 33 | 33 |
Chi crítica | 47.339 | 47.339 | 47.339 | 47.339 |
Fuente: Elaboración propia
Las derivaciones logradas de las chi cuadradas y de las chi críticas señalan que las cuatro primeras son mayores que las segundas; en otras palabras, se concluye que existe concordancia entre los expertos sobre los elementos que debe evaluar el instrumento para la revisión de un artículo. Emplear el criterio de jueces en investigaciones que tengan como propósito la validación de contenido para instrumentos de evaluación ofrece una alternativa de utilización prudente en los recursos involucrados para la ejecución de los estudios.
Conclusiones
Como se observó en la presente investigación, la validación de contenido por medio del juicio de expertos exige un proceso sistemático, el cual en cada etapa involucrada debe realizarse por completo para obtener un resultado exitoso.
El propósito del presente estudio fue analizar la validez de contenido por criterio de jueces de un instrumento para evaluar un artículo de investigación. La herramienta que se construyó para tal efecto comprendió cuatro factores: encabezado, resumen, estructura y evaluación.
Los resultados señalan que la prueba Friedman valida el consenso de las opiniones en las cuatro variables evaluadas por los árbitros, lo que brinda un instrumento robusto en su contenido.
Para concluir, se sugiere desarrollar una investigación para ponderar las opiniones de los jueces. Para ello, será importante llevar a cabo cada etapa de una investigación de validez de contenido empleando el juicio de expertos en su totalidad con el fin de lograr un resultado confiable.
Futuras líneas de investigación
El presente estudio representa el primer paso de la validación de una herramienta para contribuir a la valoración de un manuscrito. En virtud de ello, la siguiente fase se enfocará en completar la validez de criterio y de constructo de la herramienta propuesta en esta investigación.
Una línea de investigación adicional será la de llevar a cabo un estudio de la confiabilidad (consistencia interna) del instrumento a través del coeficiente alfa de Conbrach por medio de una prueba o corrida piloto de una investigación en diferentes grupos.