Introducción
La zarzamora es un fruto originalmente silvestre que ahora se produce de manera extensa con fines comerciales. Globalmente, la mayor producción de este fruto se genera en los meses de mayo a junio, pero México cuenta con las condiciones climatológicas que permiten extender su producción hasta el mes de noviembre, brindando a los cultivos de zarzamora del país la ventaja de producir en contra temporada frente a diversos países, especialmente Estados Unidos (Aguilar, 2018). Las zarzamoras son comercializadas en fresco, congeladas, jugos, pulpas, extractos, etcétera, lo que facilita su comercialización y genera una alta demanda de sus consumidores. Hoy en día, las empresas compiten ofertando zarzamoras de calidad que les permita obtener la preferencia de estos consumidores. El enfoque de calidad evoluciona constantemente (Burgos, 2021) pero mantiene como principal finalidad lograr la satisfacción del cliente. El enfoque al cliente es fundamental respecto a la calidad de las zarzamoras, ya que además de cumplir con normativas de inocuidad y seguridad alimentaria, estas son evaluadas desde la perspectiva sensorial del cliente. Como se describe en Threlfall et al. (2021) la percepción de zarzamoras de calidad por los clientes está totalmente relacionada a características visuales como tamaño, forma y uniformidad de color, donde los frutos de mayor tamaño y con menos tonalidades distintas a las esperadas, como por ejemplo rojas, secas o verdes, en las drupas de una zarzamora considerada como fresca, fueron seleccionadas y preferidas por la mayoría de los clientes participantes en el estudio.
Durante el periodo de cultivo de la zarzamora y a medida que la madurez de los frutos avanza, tanto el color como el contenido de solidos solubles van evolucionando expuestos a factores ambientales como temperatura, radiación solar, lluvia, sombreado, niveles de nitrógeno y al contenido de nutrientes disponibles en el suelo, entre otros, que alteran el proceso madurativo de los frutos, así como el proceso de cosecha que puede modificar o dañar las características de los mismos, afectando la calidad del producto obtenido post-cosecha (Lado et al., 2010). Como lo comentan Ivars & Mora (2020), es importante evaluar la calidad sensorial basada en atributos como color, textura, forma, tamaño y olor de frutos como la zarzamora post-cosecha. La composición sensible y delicada al tacto de estos frutos restringe la evaluación sensorial de la calidad a inspecciones visuales, ya sean efectuadas por personas o por visión artificial. Básicamente cualquier sistema de medición de calidad implementado en productos alimenticios sigue los dos pasos siguientes; definir las especificaciones o estándares de calidad a inspeccionar y desarrollar métodos para evaluar de manera confiable si los frutos cumplen o no con las especificaciones (Costell, 2002).
La subjetividad con la que pueden valorarse características ponderables dentro de los sistemas de calidad es un problema constante a minimizar (Segura & Alonso, 2021). En el caso de los sistemas de medición de calidad basados en atributos, especialmente cuando las evaluaciones son realizadas por personas, la subjetividad del evaluador puede introducir variaciones de concordancia en los resultados en detrimento de la efectividad del sistema. La evaluación de los frutos se realiza con base en clasificaciones binarias, donde los frutos pueden ser de calidad o no, los sistemas de medición binarios presentan un alto grado de complejidad para ser evaluados (Akkerhuis et al., 2019). La efectividad del sistema de medición puede realizarse estadísticamente por medio de un análisis del sistema de medición MSA: Mesurement System Analysis, proporcionando un panorama general de la efectividad del sistema de medición de calidad implementado (Picado, 2008). Cuando las características de calidad son continuas el método Gage R&R es la técnica estadística utilizada en el MSA, donde se asume que la variable de calidad inspeccionada sigue una distribución normal. Cuando se analizan características binarias, no existe una técnica equivalente, pero se han propuesto métodos estadísticos, como el índice Kappa, útiles para evaluar la efectividad de sistemas de medición binarios (Van Wieringen & Van den Heuvel, 2005). El AIAG (Automotive Industry Action Group) publicó un manual de referencia para el MSA, donde define los sistemas de medición por atributos como sistemas en los que un valor de medición pertenece a un número finito de categorías. En este estándar internacional, las tabulaciones cruzadas que comparan cada resultado obtenido se han utilizado para determinar el grado de acuerdo a través del valor del índice Kappa (Lyu & Chen, 2010). El MSA, junto con los métodos estadísticos, ayuda a proporcionar un conocimiento profundo sobre la capacidad del sistema de medición de una empresa. A través de una mejor comprensión de cómo funcionan los sistemas de medición, las empresas pueden basar sus decisiones en hechos para promover un trabajo de calidad (Hultman, 2016).
En este trabajo se muestra el desarrollo de un MSA para sistemas de medición binarios de calidad, basados en atributos e implementados en empresas empacadoras de zarzamoras. Incluye los resultados experimentales obtenidos en dos distintas empresas dedicadas al empaque de zarzamora con resultados contrastantes entre ambas.
Material y métodos
En esta sección se describen los pasos experimentales realizados para la recopilación de la información estadística que permite evaluar el sistema de medición por atributos que se emplea en el área de calidad por parte de las empresas participantes dedicadas al empaque de zarzamora. La experimentación comienza con la definición de un patrón estándar por parte de la persona con mayor experiencia dentro del área de calidad en la empresa, esta persona puede ser seleccionada considerando el tiempo que lleva laborando dentro del departamento de calidad, el puesto jerárquico que ocupa o las capacitaciones previas que haya logrado, entre otros indicadores que permitan seleccionar al individuo que brinde la clasificación que la empresa desea que realicen sus trabajadores sobre los frutos. Para definir el patrón estándar se toma una muestra de 50 frutos valorados por la persona con mayor experiencia, 25 con una clasificación de pasa “B”, es decir, frutos de calidad, y 25 con una clasificación de no pasa “M”, es decir, frutos que tienen algún defecto. Una vez establecido el patrón estándar, se realiza la recolección y análisis de los datos. En la Figura 1, se muestra en un diagrama de flujo el procedimiento realizado durante la experimentación del presente trabajo.
Patrón estándar
El objetivo principal del sistema de medición analizado fue clasificar correctamente los frutos de buena calidad y los que tienen algún defecto, donde las características de cada clasificación fueron definidas y delimitadas previamente. Es decir, la empresa establece cuándo la apariencia de un fruto cumple con los requerimientos de calidad y cuándo no. Para la presente experimentación se solicitó el apoyo del jefe de departamento de calidad para seleccionar a la persona con mayor experiencia dentro del área de calidad en la empresa, quien se encargó de brindar y clasificar una muestra donde la mitad de los frutos integraban zarzamoras con algún defecto y la otra mitad de la muestra frutos sin defecto. Dicha clasificación se consideró como el patrón estándar, es decir, la clasificación que se esperaba obtener en todas las inspecciones realizadas sobre la misma muestra.
Muestra a evaluar
El tamaño de la muestra fue definido siguiendo los criterios que establece Minitab para el análisis de concordancia por atributos, donde se indica un mínimo de 50 muestras para obtener estimaciones de concordancia adecuadas (Soporte de Minitab, 2022). Las zarzamoras que componen la muestra fueron acomodadas en un arreglo matricial numerado para ser inspeccionadas por los trabajadores participantes. En la Figura 2 se observa el acomodo de la muestra de 50 zarzamoras sobre una charola de manera aleatoria, donde cada uno de los 50 frutos se identificaron por la asignación de un número en el arreglo matricial. Las muestras se colocaron de manera que los defectos en los frutos fueran visibles, ya que los trabajadores realizaron la inspección únicamente de manera visual, sin tomar el fruto con la mano para evitar cualquier daño debido a la manipulación y para que mantuvieran sus características iniciales.
Recolección de información
Luego de una plática previa con todos los participantes, los inspectores fueron requeridos por turnos para clasificar la muestra, donde la secuencia en que realizaron cada clasificación fue generada de forma aleatoria e impresa en una hoja de captura. Para cada zarzamora inspeccionada se les solicitó a los inspectores su valoración acerca de si el fruto inspeccionado era de buena calidad, es decir, “pasa (B)” o si no, es decir, “no pasa (M)”. Adicionalmente, para la valoración de “no pasa (M)” se le solicitó al inspector la descripción del defecto que identificó en el fruto. Cada inspector pasó en dos momentos a realizar la clasificación de una misma muestra de zarzamoras, considerando siempre un orden de clasificación aleatorio. Para lo anterior, se utilizaron hojas impresas con secuencias de números aleatorios donde registró la información, la cual fue digitalizada posteriormente para su análisis. Adicionalmente se capturó la información relevante de cada trabajador, como la antigüedad que tiene en el área o si ha recibido capacitación previa, entre otros.
Coeficiente Kappa de Fleiss
El valor Kappa es un coeficiente estadístico que representa el grado de concordancia absoluta entre clasificaciones binarias. Como se menciona en Salas & Muñoz (2019), este estadístico se emplea en sistemas de medición cualitativos por atributos del tipo binario, con clasificaciones “pasa” y “no pasa”. La formulación conocida como Kappa de Cohen, representa un valor que establece la concordancia existente entre distintos evaluadores o respecto a un estándar. El valor del coeficiente estadístico Kappa de Cohen en el intervalo [0, 1] es calculado mediante la fórmula:
Donde:
Este coeficiente estadístico fue generalizado por Fleiss en 1981 para medir el acuerdo entre dos o más evaluadores, resultando de esta generalización el coeficiente estadístico conocido como Kappa de Fleiss. El coeficiente Kappa de Fleiss añade el cálculo del sesgo del estándar y el cálculo de la concordancia. Como se menciona en Picado (2008), mientras más fuerte sea la concordancia absoluta entre las calificaciones, más alto será el valor de Kappa de Fleiss. Las directrices de la Automotive Industry Action Group (AIAG) sugieren que la concordancia en el sistema de medición es de muy buena a excelente para valores de Kappa mayores a 0.80, mientras que valores inferiores señalan una oportunidad de mejora para el sistema de medición y valores menores a 0.40 indican poca concordancia (aiag, 2010).
Resultado y discusión
Las empresas empacadoras de frutillas implementan sistemas de medición por atributos donde la inspección se realiza directamente por los trabajadores del área de calidad, ahí la valoración de calidad realizada en el sistema de medición se afecta por la subjetividad de cada trabajador involucrado.
Los niveles de concordancia para dicho sistema de medición pueden establecerse de las tres formas siguientes:
Concordancia de los inspectores respecto a un patrón de clasificación estándar (normalmente considerado como la clasificación esperada por la empresa).
Concordancia entre inspectores.
Concordancia de un inspector consigo mismo.
Para evaluar estos tres puntos se realizó la recopilación de información correspondiente, por medio de una experimentación controlada dentro de las empresas, como se describe en la sección anterior. Este trabajo solo presenta dos casos específicos de todas las empresas participantes, las cuales obtuvieron resultados contrastantes entre ellas. Los nombres de las empresas y de los trabajadores son omitidos por motivos de confidencialidad, y los dos casos analizados tienen la clasificación como empresa A y empresa B, con sus respectivos trabajadores A1, A2, ..., A5 y B1, B2, ..., B7.
La Figura 3 muestra el índice de concordancia (IC) de cada trabajador, respecto al estándar, de lado izquierdo se presentan los resultados de los trabajadores de la empresa A, y del lado derecho los resultados de los 7 trabajadores de la empresa B. En la empresa A, los trabajadores muestran un desempeño similar, con excepción del trabajador A3, quien tiene un desempeño inferior en comparación con el obtenido por sus compañeros. En este caso, dicha situación se atribuye a que como fue indicado por la empresa, el trabajador A3 tiene poco tiempo de haberse integrado como evaluador en el área de calidad. Por otro lado, todos los trabajadores de la empresa B obtuvieron un desempeño más variado, pero en general todos sus resultados presentan un índice de concordancia inferior al obtenido por la empresa A, exceptuando el trabajador A3.
La Figura 4, muestra el porcentaje de frutos mal clasificados por cada trabajador, en color azul los frutos buenos “B” clasificados como malos “M” y en color naranja los frutos malos “M” clasificados como buenos “B”, donde se observa que en la empresa A el trabajador A4 clasificó de forma correcta todos los frutos respecto al patrón estándar, mientras que el trabajador A3 clasifico 32 % de los frutos malos “M” como frutos buenos “B”.
En las Figuras 3 y 4 fue notable la diferencia que existe en las clasificaciones realizadas por parte de los trabajadores de las empresas A y B. Sin embargo, para poder definir si las clasificaciones hechas por los trabajadores son adecuadas, más allá de la diferencia que existe entre ambas empresas, fue necesario emplear un índice estadístico, en específico el índice Kappa de Fleiss, el cual permitió valorar la información obtenida. La Tabla 1, muestra el coeficiente Kappa de Fleiss obtenido para la concordancia de cada trabajador consigo mismo en los dos momentos en que este realiza la clasificación de la misma muestra de 50 frutos; así también la concordancia entre cada trabajador respecto al patrón estándar y el valor del coeficiente Kappa de Fleiss obtenido por cada empresa en general. Como se describió en la sección anterior, valores del coeficiente Kappa de Fleiss por encima de 0.80 indican concordancias de muy buenas a excelentes, caso que corresponde con el valor alcanzado por la empresa A. Por otro lado, valores inferiores a 0.80 indican que existen oportunidades de mejora, caso que corresponde con la empresa B, la cual obtuvo 0.62 en el resultado general del coeficiente Kappa de Fleiss. Una interpretación similar del coeficiente Kappa se presenta en Marques et al. (2018), donde se analiza la concordancia de un sistema automático de inspección óptico, estableciendo que para valores superiores a 0.9 el sistema de medición es excelente, y que existe oportunidad de mejora para cualquier valor inferior.
Individual por trabajador | Cada trabajador vs estándar | ||||||
A1 | 1.00 | B1 | 0.95 | A1 | 0.95 | B1 | 0.81 |
A2 | 1.00 | B2 | 0.79 | A2 | 0.95 | B2 | 0.73 |
A3 | 0.70 | B3 | 0.51 | A3 | 0.45 | B3 | 0.40 |
A4 | 1.00 | B4 | 0.66 | A4 | 1.00 | B4 | 0.51 |
A5 | 0.95 | B5 | 0.47 | A5 | 0.93 | B5 | 0.61 |
B6 | 0.83 | B6 | 0.75 | ||||
B7 | 0.76 | B7 | 0.53 | ||||
Resultado del análisis estadístico | |||||||
Kappa | Kappa | ||||||
Empresa | A | 0.86 | Empresa | B | 0.62 |
Los resultados obtenidos muestran una diferencia considerable en el desempeño de los trabajadores de cada empresa para clasificar los frutos. Es importante señalar que, ambas empresas tienen presente la importancia de la actividad de la clasificación de los frutos y dedican esfuerzos para mantener óptimos resultados. Analizando toda la información recabada durante la experimentación es posible identificar algunas diferencias percibidas en ambos sistemas de medición por atributos usados en las empresas A y B, las cuales pueden haber sido factor en los resultados obtenidos. Una diferencia detectada es la relacionada con la cantidad de descripciones que los inspectores emplean para clasificar los frutos como “no pasa (M)”.
La Figura 5 muestra, con las barras de lado derecho, la cantidad de descripciones empleadas por la empresa B para clasificar como “M” cada uno de los 25 frutos, en los cuales se presenta una media de 5.12 empleadas por un solo fruto con clasificación “no pasa (M)”, y se obtuvieron hasta 10 descripciones diferentes para un solo defecto presente en el mismo fruto. Por otro lado, en la empresa A, con las barras de lado izquierdo, se observa una reducción considerable en la cantidad de descripciones empleadas para un solo defecto en el fruto con clasificación “no pasa (M)”, teniendo una media de 2.68 y un máximo de 6 descripciones distintas para un solo fruto. En la Tabla 2 se presenta un caso ejemplo de las descripciones dadas por una misma clasificación “no pasa (M)” en ambas empresas, donde se observa el uso de múltiples descripciones por parte de los evaluadores para un mismo fruto teniendo hasta 10 distintas en la empresa B.
Empresa B | ||||
Fruto M10 | Estándar = Deforme | |||
Clasificaciones | ||||
Calibre pequeño, madurez, desuniforme |
Pequeña, desuniforme | Pequeños puntos rojos | Inmadura, calibre | |
Inmadura, deforme | Madurez desuniforme | Tamaño pequeño, deforme, madurez desuniforme |
Pequeña, deforme, des- uniforme |
|
Drupa inmadura | Deforme | |||
Empresa A | ||||
Fruto M10 | Estándar ꞊ Malformación, verde | |||
Clasificaciones | ||||
Ácaro | Verde | Malformada, verde | Malformada | |
Daño ácaro |
Es evidente que un fruto puede exhibir más de un defecto por el cual se puede rechazar, pero cuando existen tantos elementos presentes a valorar sin un orden de prioridad aparente llega a confundir a los trabajadores quienes realizan la valoración de forma subjetiva. Aunque la principal necesidad de la empresa es que los frutos sean valorados adecuadamente en su clasificación “pasa (B)” y “no pasa (M)”, los resultados sugieren que brindar distintas posibilidades para una clasificación de “no pasa (M)” sin dar un orden de importancia claro, tiene un impacto en la clasificación por atributos que los inspectores realizan. La importancia de definir claramente un mínimo de categorías mutuamente excluyentes se presenta y discute en los trabajos de Kundel & Polansky (2003) y Conger (2016), quienes de forma similar establecen que un mayor número de categorías usadas en un sistema de medición por atributos afecta la efectividad del sistema, además de que el coeficiente Kappa reduce su valor. Adicionalmente mejorará la clasificación binaria del sistema, la cual impacta en la calidad del producto entregado al mercado y por lo tanto, tiene implicaciones directas del cliente para la aceptación del producto. Clarificar los defectos por los que un fruto se rechaza tiene un gran potencial para mejorar las relaciones con los proveedores, permitiendo a la empresa apoyar a los agricultores de una manera oportuna, indicándoles el defecto que presentan sus frutos y en dado caso, el método o tratamiento indicado para mejorar la calidad de su cosecha.
Conclusiones
Los resultados obtenidos sobre la concordancia que se presenta en las valoraciones de frutos, en específico zarzamoras, que realizan los inspectores en los empaques mediante un sistema de medición por atributos sugieren que la subjetividad de las valoraciones pueden estar relacionadas con las características del diseño del sistema de medición por atributos, en específico, con la cantidad de descripciones empleadas y la prioridad en los aspectos a valorar. Esto sugiere que durante el diseño del sistema de medición por atributos, es importante delimitar la mínima cantidad posible de descripciones empleadas para indicar los defectos en las zarzamoras, evitando distintas descripciones para un mismo defecto. También, establecer el orden de inspección de cada uno de los posibles defectos evitando confusión en qué defecto indicar cuando el fruto presenta más de una característica no deseable. Posteriormente al diseño, es importante que todos los inspectores conozcan el funcionamiento del sistema de medición por atributos por medio de una capacitación donde se explique todo lo pertinente. Finalmente, es recomendable emplear sistemas de control periódico para asegurar la efectividad del sistema de medición empleado.