Métodos de prueba y validación

Herramientas críticas, empíricas y formales

10 min readOct 12, 2018

Existen tres tipos de herramientas evaluativas orientadas hacia los clientes: las críticas, las empíricas y las formales. Cada una de estas tiene un componente de validación donde siempre se le da prioridad al punto de vista del cliente.

Herramientas de evaluación críticas

Suelen aplicarse previamente a las herramientas empíricas debido a que con estas -las críticas- se mejoran elementos o errores para los cuales no es estrictamente necesario tener un contacto con usuarios reales, así se evita malgastar el tiempo de prueba real con usuarios. Estas herramientas, provechan el juicio de expertos y la retroalimentación de grupos de interés. Algunas de las más conocidas son: las revisiones y la evaluación heurística.

Las revisiones requieren de uno o más artefactos que se muestran a una audiencia para ser criticados. Este artefacto es revisado dando prioridad al punto de vista del usuario final bajo un escenario de realización de una tarea. Las revisiones se realizan en una o más reuniones en las que se invita a un grupo interdisciplinario compuesto por promotores, colegas, usuarios, etc.¹

Es clave para, el equipo que presenta, mostrar muy bien la idea, no defenderla y anotar los elementos relevantes de la crítica. Para la audiencia es clave dar retroalimentación constructiva, adoptar la perspectiva del usuario final y estar en capacidad de retar al equipo de diseño. En este tipo de reuniones se debe aclarar que los usuarios invitados son los participantes principales. Uno de los beneficios principales de esta herramienta es el de ganar perspectivas combinadas.

Algunas orientaciones sugieren que las críticas convencionales no son muy efectivas porque suelen gastar gran cantidad de tiempo en discusiones absurdas y porque suelen estar dominadas por las personas más extrovertidas, dejando de lado las aportaciones de los más callados. Una alternativa a esto es el test mariposa y la dotmocracy, que pueden ser también utilizados para ayudar a la selección de alternativas.

Ejemplo de Sticky Decision

Una forma de aplicar estos tipos de evaluación es ubicar, a manera de galería, las diversas alternativas para que queden exhibidas y se puedan comprender solas sin ayuda de los creadores. Conforme las personas las revisan, ubican pequeños puntos en los elementos que les llaman la atención -mapa de calor- y plantean sus inquietudes y opiniones en notas autoadhesivas bajo la alternativa, finalmente se puede generar una discusión con tiempo controlado sobre las notas y puntos ubicados alrededor de las alternativas. Esta técnica da un espacio de expresión no oral a la retroalimentación. En el Sprint de diseño, tal como lo plantea Jake Knapp, se utiliza esta técnica bajo el nombre de “sticky decision” el día miércoles.²

Una herramienta que puede ayudar a facilitar las opiniones, es la matriz de retroalimentación en la que se puede pegar, también con notas autoadhesivas, los elementos que deberían mejorar, lo que se considera positivo, las inquietudes que genera la propuesta y las ideas que inspira. El video muestra su uso en un proyecto de diseño.³

Dentro de las críticas también se encuentra la evaluación heurística. Esta herramienta aprovecha el juicio de un grupo reducido de evaluadores (tres a cinco) para contrastar a la alternativa de diseño frente a unos principios considerados como lineamientos generales a seguir -conocidos como heurísticas-. Los evaluadores identifican las violaciones que haya de las heurísticas.

Una de las aplicaciones de evaluación heurística más conocidas es la de evaluación de la interfaz del usuario basada en las 10 heurísticas de usabilidad de Nielsen. Sin embargo, este principio de evaluación puede aplicarse a diversos elementos del diseño y los principios orientadores o heurísticas pueden ser creados o adaptados según lo indique la práctica.

El proceso de evaluación heurística es:

Entrenamiento previo de los evaluadores en el proceso y en las heurísticas.
Los evaluadores realizan individualmente la evaluación.
Se priorizan los problemas encontrados según escala de severidad.
Consolidación de los datos.

Herramientas de evaluación empíricas

La evaluación empírica es aquella donde se tiene contacto con usuarios reales para que estos prueben y den retroalimentación sobre el artefacto o prototipo. Se pueden resaltar tres métodos de evaluación empírica: las pruebas de usabilidad, las pruebas de deseabilidad y las entrevistas con cliente objetivo.

“person about to use silver Apple Watch in grey Sports Band” by Nick Jio on Unsplash

La usabilidad tiene que ver con la facilidad en la que se entiende, funciona un producto y lo agradable que es el mismo. En lo que se refiere a la interfaz del usuario está definida por el estándar ISO 9241 “Usabilidad: la medida en la que un producto puede ser usado por usuarios específicos para alcanzar metas específicas con efectividad, eficiencia y satisfacción en un contexto de uso específico” Trad.

La usabilidad es uno de los elementos más asociados con la aceptación de una propuesta por parte del cliente, en especial con aspectos funcionales que a la vez pueden tener connotaciones emocionales, por ejemplo un producto que funcione muy bien puede elevar el grado de satisfacción del cliente.⁴ Alrededor de este tema, existe toda una teoría que para aplicarla requiere el apoyo de expertos en usabilidad, sin embargo los principios de un análisis básico pueden ser aplicados por cualquier equipo de diseño.

¿Cuántos usuarios se requieren para una prueba de usabilidad?

“white 5 illustration” by Siora Photography on Unsplash

En 1993 Nielsen realizó un análisis de múltiples estudios de usabilidad realizados por su compañía y concluyó que, mientras hagan parte del público objetivo, con los datos cualitativos obtenidos a partir de solo cinco entrevistas a usuarios es suficiente para revelar el 85% de los problemas de usabilidad de la solución. Entrevistar a más usuarios, sin antes hacer una iteración del diseño, es ineficiente. En otras palabras: 85% de los problemas se encuentran luego de entrevistar a cinco usuarios debidamente seleccionados.

Una evaluación básica de usabilidad tiene los siguientes pasos:

Definir la audiencia y sus metas.
Crear tareas del usuario que involucren estas metas.
Conseguir a los usuarios adecuados.
Observar a cada usuario por separado mientras desempeña la tarea.

Protocolo de hablar en voz alta

“person holding black iPad” by Taras Shypka on Unsplash

En una entrevista de usabilidad se utiliza el protocolo de hablar en voz alta que consiste en solicitar al usuario que diga, en voz alta, lo que está pensando mientras realiza la tarea. Esta información complementa lo que observa el entrevistador y puede dar una orientación sobre las motivaciones y orientaciones del usuario en aspectos específicos de interacción con el prototipo. Es importante anotar que las pruebas con usuarios ayudan a empatizar con los mismos puesto que estas interacciones generan nueva información acerca de sus necesidades particulares.

Existen algunas herramientas para realizar pruebas remotas de usabilidad en entornos interactivos.

Entrevistas con cliente objetivo

Inspiradas en las pruebas con usuario, las entrevistas con cliente objetivo buscan poner a prueba la propuesta de producto pero, en este caso, van más allá de la usabilidad del sistema y pretenden identificar la receptibilidad de los clientes frente a una o más alternativas de diseño. Dentro de la metodología sprint de Google Ventures podemos resaltar un ejemplo de entrevistas con cliente objetivo de dos empresas de su portafolio⁵.

Como se comparte en Sprint, Savioke es una empresa que realiza robots para la industria de los servicios y estaba lista para lanzar el primer lote de robots de ayuda para un hotel. La idea era que los robots podían asistir al personal de servicio durante las horas pico con tareas pequeñas como llevar un cepillo de dientes o un alimento empacado a una habitación.

El equipo tenía varias dudas acerca de cuál sería la reacción de un huésped al ver que un robot entrega su solicitud en la puerta de la habitación. Para resolver esa inquietud realizaron un prototipo que luego probaron con cinco clientes en un hotel. La prueba pretendía dar, a partir de la reacción de los clientes, una orientación acerca de detalles como la cara del robot, sus sonidos y movimientos. Para ello utilizaron un robot físico semi-funcional con partes impresas en 3D, un control remoto de Playstation, un iPad mini con una presentación en Keynote como pantalla del robot y efectos de sonido gratuitos.

Las entrevistas con cliente objetivo tienen una estructura de cinco actos⁶:

Bienvenida amistosa.
Serie de preguntas personales abiertas de contextualización que van orientando la conversación hacia el objeto de la prueba.
Introducción del prototipo.
Tarea detallada para hacer reaccionar al cliente sobre el prototipo.
Rápido repaso para capturar los pensamientos em impresiones generales.

En el video se muestra este proceso para una app de fitness:

Test de deseabilidad: cartas de reacción del producto de Microsoft

Algunos adjetivos del test de deseabilidad de Microsoft traducidos

Más allá de la usabilidad hay un aspecto relacionado con la deseabilidad frente al producto y es el de comprender la reacción emocional que este puede generar. Con el ánimo de comprender mejor las emociones que provoca ver o usar un producto, y de facilitar que los usuarios expresen más fácilmente sus sentimientos y opiniones, Microsoft desarrolló un método de evaluación de deseabilidad basado en 118 tarjetas cada una con un adjetivo que se relaciona con una emoción⁷.

El test de las tarjetas de reacción del producto se aplica de la siguiente forma:

Cada una de las 118 palabras se ubican en una tarjeta por separado.
Se le solicita al usuario escoger de las tarjetas aquellas palabras que mejor describan el producto o cómo usarlo lo hace sentir.
El entrevistador registra las palabras seleccionadas y solicita al usuario reducir el número de tarjetas a las cinco que mejor describan sus reacciones.
Luego el entrevistador solicita detalles acerca de por qué el usuario escogió cada una de las cinco tarjetas. Luego los registra como comentarios asociadas a las mismas.

“Los datos más importantes… son los de la discusión con el participante del estudio para determinar su reacción a un ítem (ej. Si piensan que es positivo o negativo) y cómo aplican ese ítem al producto evaluado” Joe Benedek, Trish Miner. Measuring Desirability.

Herramientas de evaluación formales

Experimentos

Inspirados en el método científico, los experimentos ponen a prueba una hipótesis. Se suele utilizar la técnica de la asignación aleatoria que expone a un grupo de participantes a una variable experimental, en este caso un producto, mientras otros participantes sirven como grupo de control. Luego se mide una variable dependiente en ambos grupos para ver si existe una diferencia sustancial de los que han sido expuestos frente a los que no.

Unas de las formas más comunes en validación es el testeo A/B. En esta técnica, utilizada ampliamente en el diseño de interfaz de usuario en la industria de Internet, compara dos versiones de un mismo diseño para determinar cuál se desempeña mejor frente al logro de un objetivo previamente definido.

“En 2011 la compañía (Google) corrió más de 7.000 test A/B en el algoritmo de búsqueda. Amazon.com, Netflix e eBay son también A/B adictos, contantemente testean cambios potenciales del sitio en usuarios reales (y desprevenidos).” Brian Christian. Wired.com (Trad.)

De manera física se podría hacer en correo directo, se pueden hacer dos versiones de correo físico promocionando un mismo producto. Estas dos versiones son enviadas a diferentes personas de manera aleatoria y, manteniendo las otras condiciones iguales, se puede medir luego el grado de respuesta a una CTA (llamada a la acción) para determinar la versión que mejor se desempeña.

En email se puede hacer lo mismo: por medio de plataformas de email marketing se pueden distribuir aleatoriamente dos versiones de un mismo mensaje de correo electrónico, por ejemplo con asuntos distintos y tiempo después verificar el desempeño de ambos asuntos. Debido a que el testeo A/B no arroja el porqué los usuarios prefieren una u otra versión, debe ser complementado con otros métodos de interacción con usuarios que arrojen datos cualitativos.

Con esta técnica se pueden evaluar: precios, descuentos, textos, empaques, variaciones web, alternativas de producto. Las llamadas a la acción pueden ser: comprar, suscribirse, hacer clic, llenar una encuesta, etc.

Existen algunas herramientas para hacer este tipo de test, por ejemplo: VWO, Five Second Test, Google Analytics Experiments, entre otros.

Como ejemplo del uso de esta herramienta, Brian Christian comenta en Wired que en 2007, cuando Obama era candidato presidencial, su campaña hizo uso del testeo A/B para optimizar la página del candidato. Las pruebas dieron como resultado, entre otros, que aunque el equipo suponía que un video de Obama hablando tendría que desempeñarse mejor que cualquier fotografía estática, fueron las fotografías estáticas las que lo superaban.

“Al final de la campaña, se estimó que 4 millones de las 13 millones de direcciones en la lista de correos de la campaña y unos 75 millones de dólares recaudados, resultaron de los experimentos cuidadosos de Siroker” Brian Christian. Wired.com⁸

Hanington, B. M., & Martin, B. (2012). Universal methods of design: 100 ways to research complex problems, develop innovative ideas, and design effective solutions. Beverly, Mass: Rockport Publishers.
Knapp, J., Zeratsky, J., & Kowitz, B. (2016). Sprint: How to solve big problems and test new ideas in just five days. New York: Simon & Schuster.
design thinking bootleg. dschool at Stanford University.
Norman, D. A. (2007). Emotional design: Why we love (or hate) everyday things. New York, NY: Basic Books.
Knapp, J., Zeratsky, J., & Kowitz, B. Opcit.
Ibid
Benedek Joey, Miner Trish, Measuring Desirability: New methods for evaluating desirability in a usability lab setting. Microsoft Corporation.
https://www.wired.com/2012/04/ff-abtesting/

Métodos de prueba y validación

Herramientas críticas, empíricas y formales

Herramientas de evaluación críticas

Herramientas de evaluación empíricas

Herramientas de evaluación formales

Written by Felipe Jimenez Cano

No responses yet