10 Tablas (módulo clásico)
BarbWin, TESI, Proceso de datos
Llamamos tabla de resultados a los cuadros constituidos por disposición ordenada y totalizada de las sumas o frecuencias o porcentajes o cualesquiera valores tabulados referidos a las categorías o dimensiones de una variable o varias relacionadas entre sí. Una tabla sistematiza un resultado cuantitativo y ofrece una visión general del conjunto estudiado. Con una tabla se culmina una clasificación cuantitativa de los datos. Particularmente, llamaremos tabla de contingencia a las tablas de resultados referentes a dos variables, formada en la cabecera por las categorías o valores de una y en las filas por valores o categorías o intervalos de otra, y situando en las celdillas de la tabla las frecuencias o número de elementos que reúnen a la vez las dos categorías (columna y fila).
En Gandia BarbWin hay cuatro grandes tipos de tablas:
- Tablas marginales (frecuencias / estadísticos), son aquellas que solo contiene variables en filas, siendo la cabecera de la tabla el total absoluto y porcentual si son frecuencias o el estadístico seleccionado: media, desviación, suma, etc.
- Tablas cruzadas (frecuencias / estadísticos / estadísticos en celda) , aquellas tablas de contingencia donde hay relaciones bivariantes entre variables (2 o 3). En Gandia BarbWin tenemos tablas básicas de frecuencias, tablas de estadísticos, y tablas con estadísticos en celda.
- Escalas y cuadros, tablas en las que la cabecera es un conjunto de alternativas de respuesta igual para todas las variables.
- Tabulación de grupos, tablas del primer o segundo grupo pero con la particularidad de que cada registro no es la base sino que la base es un nivel de análisis derivado de una variable de grupo.
10.1 Conceptos iniciales
Refresquemos algunos de los conceptos que utilizaremos en este capítulo. - Título y pie de tabla - Columna de tabla - Fila de tabla - Columnas y filas especiales - Celda - Subtotales / Bases
10.1.1 Título y pie de tabla
En cualquiera de los diálogos de tabulación, en la parte superior e inferior tenemos la posibilidad de escribir texto de cabecera de tabla y texto de pie de tabla, así como establecer la posición de esos textos:
- Izquierda
- Centro
- Derecha
Además en cualquiera de los dos lugares, se pueden escribir los siguientes códigos:
- Escribir (#FECHA#), para que aparezca la fecha de realización de las tablas de forma dinámica, es decir, esta fecha se modificará cada vez que se visualicen o impriman las tablas, de acuerdo a la fecha en que se realice la acción.
- Escribir (#HORA#), para que aparezca la hora de realización de las tablas de forma dinámica, es decir, esta hora se modificará cada vez que se visualicen o impriman las tablas, de acuerdo a la hora en que se realice la acción.
- Escribir ( – FECHA – ), para que aparezca la fecha de realización de las tablas. En este caso, se convierte en un texto y no funciona de forma dinámica.
- Escribir ( – HORA – ), para que aparezca la hora de realización de las tablas. En este caso, se convierte en un texto y no funciona de forma dinámica.
- Escribir (#), para que aparezcan numeradas las tablas por cabeceras.
10.1.2 Columna de tabla
Denominamos columna de tabla, aquella unidad de información registrada de forma vertical que nos informa acerca del resultado solicitado en una tabla. En una tabla de Gandia BarbWin una columna de tabulación viene definida por cada una de las alternativas de respuesta (códigos) que se registraron en la variable.
10.1.3 Fila de tabla
Denominamos fila de tabla, aquella unidad de información registrada de forma horizontal que nos informa acerca del resultado solicitado en una tabla. En una tabla de Gandia BarbWin una fila de tabulación viene definida por cada una de las alternativas de respuesta (códigos) que se registraron en la variable.
10.1.4 Columnas y filas especiales
Toda variable tiene, además de las categorías (códigos) definidas por el usuario, las categorías especiales de:
- No contesta (tienen grabado un & como dato)
- No sabe (tiene grabado un + como dato)
- No definido (valor no definido en la codificación)
- Filtrado (tiene grabado un - como dato)
Estos valores sólo aparecen si así lo desea el usuario activando la opción correspondiente en opciones de tabulación o utilizando el botón correspondiente dentro del cuadro de tabulación. Además, como el sistema graba automáticamente un guión ( – ) en todas aquellas variables que el usuario no debe grabar por cumplirse una condición de salto, en la tabulación también se puede pedir que aparezca su frecuencia.
10.1.5 Celda
Unidad mínima de información en una tabla. Dependiendo del estadístico solicitado, la celda representa el resultado de la intersección de la categoría de columna y de la categoría de fila.
10.1.6 Subtotales o base
Cuando se realiza una tabla sin hacer selección de casos, el TOTAL de registros tabulados coincide normalmente con el total de casos que hay en el fichero. Pero imaginemos ahora que en una base de datos, como suele pasar en la realidad, haya una serie de variables que sólo pueden tener información si se cumple una condición, por ejemplo:
- Marca de tabaco que fuma, número de cigarrillos consumidos: si fuma.
- Gasto en pinturas: si la industria utiliza pinturas.
Podemos observar, que normalmente será incongruente para el investigador recibir resultados porcentuales de esas variables tomando como base el TOTAL de casos. Por lo tanto cualquier porcentaje de esas variables no deberá hacer referencia al 100% de la base de datos sino a los que cumplan la condición de la base (fumadores e industrias utilizadoras de pinturas, en los ejemplos citados).
Para Barbwin una base no deja de ser una nueva fila o columna de TOTAL a partir de la cual los porcentajes de las variables implicadas en la base serán calculados tomando como 100% sólo los registros que cumplen la condición especificada en la base.
10.2 Cálculos en las tablas
10.2.1 Cálculo en las celdas
Ahora que ya tenemos la mínima información adquirida en los apartados anteriores al respecto de las parte que conforman una tabla, debemos entrar más a fondo en cuales son los resultados que se pueden obtener en las unidades de información que hemos venido a denominar celdas.
Al hacer una tabla, en las celdas esperamos obtener unos valores que llamaremos estadísticos de celda. Los estadísticos de celda son aquellos valores que podemos calcular en cada una de las celdas que componen una tabla.
Para que se calculen, tras hacer la tabla y tener la ventana de resultados delante, basta con hacer clic en el botón correspondiente en la base de la ventana (estadísticos de celda), y marcar en las casillas de verificación.
Entre ellas podemos destacar las frecuencias o absolutos, así como los porcentajes tanto verticales, horizontales, y totales; de ellos hablaremos a continuación. Existe la posibilidad de combinar varios de estos estadísticos de celda en la misma tabla, en lugar de obtenerlos en tablas separadas, si se activa la opción combinar en la base de la ventana de resultados y luego se van pinchando los botones respectivos.
10.2.1.1 Frecuencias
Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. En investigación de mercados dos son los tipos de frecuencia que se manejan:
- Frecuencias absolutas u observadas en la muestra o censo analizado
- Frecuencias esperadas en la muestra o censo analizado según resultados marginales
10.2.1.1.1 Absolutas / Observadas
Frecuencia absoluta (ni) de una variable estadística Xi, es el número de veces que aparece en el estudio este valor . A mayor tamaño de la muestra, aumentará el tamaño de la frecuencia absoluta; es decir, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada (N).
Definimos frecuencia absoluta u observada al número de casos que en nuestro fichero de datos (muestra o censo) cumple las características (o se encuentran en los intervalos) fijadas tanto por la variable que da lugar a la creación de una columna, como por la variable que da lugar a la creación de una fila si hablamos de tabla de resultados o al número de veces que se repite un determinado valor (o el intervalo al que pertenece) si hablamos de una distribución. Su cálculo estadísticamente quedará delimitado, como el número de veces que se repite en una población o muestra cada una de las categorías de una variable cualitativa o de los valores de una variable cuantitativa.
10.2.1.1.2 Esperadas
Las frecuencias esperadas son aquellas observaciones que cabría esperar, si no hubiera asociación alguna entre las variables tabuladas. Su cálculo es muy sencillo: si tomamos el total marginal de la columna i, y lo multiplicamos por el total marginal de la fila j, dividiendo posteriormente por el total de observaciones, obtendremos un número llamado frecuencia esperada de la celda ij. Esta frecuencia esperada – la misma que en las pruebas derivadas de ChiSquare – es muy utilizada para realizar contrastes de frecuencias.
Esta frecuencia esperada será la base del análisis de residuos y también de las posteriores pruebas estadísticas que analizaremos.
10.2.1.2 Porcentajes
Denominamos porcentaje a la representación en base 100 de las frecuencias observadas en la muestra o censo; según la magnitud de la base, podremos encontrar: - porcentajes de columna o verticales - porcentajes de fila u horizontales - porcentajes de muestra o totales
10.2.1.2.1 Porcentajes verticales (columna)
Expresión de los valores de una distribución, en función de 100, o igualando a 100 el total general de dichos valores. Es llamado vertical, porque el 100% será la base de los casos en columna para un cruce de variable por variable en una tabla de doble entrada (total marginal de columna).
10.2.1.2.2 Porcentajes horizontales (fila)
Expresión de los valores de una distribución en función de 100, o igualando a 100 el total general de dichos valores. Es llamado horizontal, porque el 100% será la base de los casos en fila para un cruce de variable por variable en una tabla de doble entrada (total marginal de fila).
10.2.1.2.3 Porcentajes totales (muestra)
Expresión de los valores de una distribución en función de 100, o igualando a 100 el total general de dichos valores. Es llamado total, porque el 100% será la base de los casos totales valorados en una tabla de doble entrada (total de casos en la muestra o población).
10.2.1.3 Indicativo ChiSquare de celda
Para solicitar el indicativo ChiSquare, debemos realizar la tabla de frecuencias correspondiente y en la ventana de tabulación, pinchar en el botón de estadísticos de celda.
En este diálogo, seleccionar pruebas de significación y seleccionar la correspondiente opción. Cuando es activado, se marcan las celdas significativas en la tabla. En estas pruebas la celdilla estudiada se convierte en la celda superior izquierda de una tabla 2x2 de 4 campos: ella misma, el total de su columna, el total de su fila, y el total general. El resultado de la prueba será significativo si es mayor que 3’84, valor tomado con un 95.5 % de confianza. No se entrega el valor exacto de la prueba realizada, que puede ser obtenido sin embargo listando el valor de ChiSquare en celda, sino que marca en los porcentajes verticales aquellas celdillas que considere significativas con un ( > ) si el porcentaje vertical está sobre el porcentaje de totales o con un ( < ) si está por debajo del porcentaje de totales.
Esta es una prueba muy utilizada entre las empresas de investigación, basada en un desarrollo parcial de la prueba ChiSquare de tabla pero en lugar de para toda la tabla se calcula una prueba para cada una de las celdas medida en % vertical. Su realización permite poder observar de un solo vistazo cuáles son las celdas que presentan una determinada significación en la tabla. En términos no estadísticos podemos decir, que nos permite conocer cuáles son los resultados (alternativas de respuesta) que presentan un resultado más dispar en una tabla, dados unos porcentajes marginales determinados. En estas pruebas la celdilla (alternativa de respuesta) estudiada se convierte en la celda superior izquierda de una tabla 2x2 de 4 campos: ella misma, el total de su columna, el total de su fila, y el total general.
|TOTAL|EDAD||||| |% Verticales con marca ChiSquare|-25|-35|-45|-55|+55| |TOTAL|384|124|104|64|40|52| |Notoriedad espontánea||||| |P10|384|124|104|64|40|52| |Peugeot|307|Toruing|52.1|48.4|50.0|62.5|60.0|46.2| |Otros|34.4|25.8|>50.0|>56.3|20.0|<7.7| |Xsara|Picasso|32.3|38.7|42.3|18.8|30.0|<15.4| |Corolla|Verso|13.5|12.9|15.4|6.3|20.0|15.4| |Volkswagen|Touran|12.5|>19.4|7.7|12.5|10.0|7.7| |Megane|Scenic|11.5|12.9|7.7|6.3|>30.0|7.7| |Otros|Renault|Space|10.4|<3.2|>19.2|6.3|10.0|15.4| |Volkswagen|Sharan|6.3|3.2|7.7|>12.5|10.0|| |Otros|Opel|Zafira|4.2|<|3.8|6.3|10.0|7.7| |Chrysler|Grand|Voyager|4.2|<|7.7|>12.5||| |Seat|Alhambra|2.1|3.2|3.8|||| |NS/NC|9.4|6.5|7.7|6.3||>30.8|
Por ejemplo en Volkswagen Touran aparece un >19.4. Esto implica que en esta categoría el 19.4% es un valor significativamente superior al 12.5% que aparece en la columna de totales. Con lo cual se informa al investigador que ese dato es diferente de lo que cabría haber esperado. Éste puede tener explicación o no mediante los datos. Una tabla con una gran cantidad de celdas que significativamente sean diferentes de lo que cabría esperar, desemboca en la prueba ChiSquare de tabla que más adelante analizamos.
10.2.1.4 Valor ChiSquare de celda
Este resultado nos indica que valor ha obtenido la prueba ChiSquare que se ha realizado en esa celdilla. Es el valor utilizado para marcar la celdilla como significativa (valores> 3.84 al 95,5%).
10.2.1.5 Pruebas z y t
Ver también prueba z porcentajes en muestra independientes o prueba t medias en muestras independientes. Para realizar la prueba de significación de tablas, pincharíamos el botón correspondiente en la ventana de tablas. Seleccionamos t – Student y seleccionamos los intervalos mínimos. Lo habitual es señalar 95 – 99%. Cada columna de cada variable o de toda la tabla según lo elegido recibirá una letra para ser identificada. 95 – 99% implica que si una celda de una columna presenta diferencias significativas positivas con otra celda de otra columna en la primera se escribirá la letra de la columna con la que presenta diferencias.
10.2.1.6 Otras opciones en el diálogo
La prueba puede ser realizada entre las filas o entre las columnas, según ubicación de la variable que indica la medición de diferencias porcentuales o medias y se puede realizar la prueba de una cola o de dos colas. Si la muestra es mayor que 30 se aplican siempre muestras grandes, pero si no es así, el usuario tiene la opción de solicitar las fórmulas para muestras pequeñas así como también de no combinar aquellas celdas que tengan un valor menor del 1 %.
Al aceptar veremos alguna celdilla en la que aparecen letras minúsculas (diferencias al 95%, al menor del intervalo) y en otras mayúsculas (diferencias al mayor del intervalo, 99%). Para los porcentajes la prueba es la de muestras independientes para porcentajes y para medias es la de medias para muestras independientes. Si no hay letras, no hay diferencias. Desde la versión 7 de Barbwin ya puede seleccionarse sólo un intervalo y no dos como era hasta ahora habitual.
Del mismo modo, la prueba se puede realizar de forma independiente a todas las variables de cabecera (columna de variable) o combinando (decide el usuario) columnas entre las diferentes variables de cabecera o filas (columna de tabla).
Por último, si existe ponderación, se puede optar por aplicar el N real o el N ponderado como base de cálculo en la fórmula.
10.2.1.7 Residuos
Ver también análisis de residuos. Diferencias entre la frecuencia esperada y la observada. Se presenta en tres formas distinta: directo, normalizado y normalizado corregido (Haberman).
10.2.2 Estadísticos en filas / columnas de tabla
Manteniendo las definiciones anteriormente aportadas de columnas y filas, y añadiendo en este caso también el de celda —unidad de la tabla— podemos hacer tablas que contengan medidas estadísticas en columnas, en filas o en celdas.
- Base, número de casos que intervienen en el cálculo de estadísticos o dicho de otra forma número de casos válidos (con respuesta numérica) que se han utilizado para estimar los estadísticos.
- Suma de casos, valor resultante de la adición de los valores tomados por una variable numérica métrica. El cálculo resultante será la suma de la información de la variable para todos los casos seleccionados.
- Máximo valor, punto en el que la distribución de frecuencias de una variable métrica alcanza su valor más elevado. Los valores anteriores y posteriores en la distribución siempre serán más bajos.
- Mínimo valor, punto en que la distribución de frecuencias de una variable métrica alcanza un valor más bajo. Los valores anteriores y posteriores en la distribución serán siempre más altos.
- Media aritmética, la media aritmética, conocida como “media” generalmente es una medida de tendencia central paramétrica, aplicable específicamente en el caso de variables cuantitativas con escalas de intervalo o de razón, que representa el punto de la distribución de los valores de una variable, en el que se hacen iguales las desviaciones con relación a dicho punto, de los valores de la distribución situados sobre ese punto con los situados por debajo de ese punto.
- Desviación típica, medida de dispersión paramétrica igual a la raíz cuadrada de la varianza, o de la media del cuadrado de las desviaciones de los valores de una distribución desde su media. Exige para ser válido su valor, por su condición de estadístico paramétrico, que la variable se distribuya normalmente y que esté medida por intervalos (métrico).
- Varianza, medida de dispersión paramétrica igual a la media del cuadrado de las desviaciones de los valores de una distribución desde su media. Exige para ser válido su valor por su condición de estadístico paramétrico, que la variable se distribuya normalmente y que esté medida por intervalos (métrico)
- Coeficiente de variación, recibe este nombre la dispersión relativa que se pueda dar en una distribución de frecuencias. Al ser un cociente sin dimensión, puede servir como medida de comparación de dos distribuciones con media y desviaciones diferentes.
- Intervalo de confianza para la media, intervalo generado alrededor de la media partiendo del valor de la desviación típica, donde podemos asegurar con cierto grado de confianza, que la media deberá estar incluida en él. El programa utiliza por defecto un nivel de confianza del 95%, por tanto Z?, es 1.96.
- Prueba t-Student, contraste estadístico del mismo nombre. Dadas dos variables numéricas métricas se aplica la prueba para medias de muestras pequeñas e independientes. En la fórmula n1 y n2 son los tamaños muestrales y S1 y S2 son las desviaciones típicas de ambas muestras.
- Coeficiente de correlación, coeficiente lineal y paramétrico que relaciona las variables de forma que estudia la variación que supone en una variable modificaciones de la otra variable. Entre – 1 y 1 valores próximos a 0 implican ausencia de correlación o ausencia de correlación. Valores próximos a 1 implican correlación o relación directa (aumentos provocan aumentos, disminuciones provocan disminuciones en el índice del coeficiente) y valores próximos a – 1 implican relación o correlación inversa (aumentos implican disminuciones y disminuciones provocan aumentos entre la variables). Dado su carácter lineal y paramétrico, su aplicación exige que la relación entre las variables sea lineal y que pueda ser expresada por la ecuación de la línea recta, por otro lado, le pediremos a las variables que tengan una escala al menos de intervalo y que su distribución sea normal o tendente a una normal.
- Ratios, en nuestro caso consideramos el estadístico razón, como el cociente de la variable 1 y la variable 2 en la tabla. Es decir, tras sumar los valores de 1 y 2, se dividen ambos.
- Frecuencias, utilizado para combinar en la misma tabla las frecuencias y otros estadísticos
- % Suma, utilizado que se muestre en porcentaje (vertical si está en columna, horizontal si está en filas) el porcentaje que representa la suma sobre el total en la variable.
- Mediana,
- Moda,
10.3 Operaciones con códigos
En el ángulo superior izquierdo junto a bases y rangos de estadísticos, se ha añadido un botón que permite realizar sencillas operaciones matemáticas entre los códigos o índices de código de la variable u otras variables anteriormente listas en la misma tabulación.
Tras hacer clic en la opción correspondiente se muestra un diálogo para introducir un identificador o nombre de la operación que solicitamos y su fórmula de cálculo correspondiente. Para escribir una operación podremos utilizar dos nomenclaturas C1, C2..Ck será la forma de referirnos a los códigos 1,2,3…k de la variable en la cual se introduce la operación, mientras que I1, I2, I3…Ik servirá para referirnos al código (sea el valor que sea) que aparece en primer lugar en la lista de códigos de la variable en que se introduce la operación.
Las expresiones escritas pueden recibir el tratamiento de valor de frecuencia escribiendo el símbolo % a la expresión calculada o también, como valor estadístico escribiendo un # delante de la expresión. Si no se escribe nada el programa decidirá por la composición de la operación si es un estadístico o es un valor de frecuencia.
En los cálculos establecidos, se puede hacer referencia a las denominadas categorías especiales de las variables. Utilizando la nomenclatura:
- CA para los No definidos
- CB para los Filtrados
- CC para el No contesta
- CD para el No sabe
- CE para la categoría de valores especiales agrupados dentro de la base
En las expresiones, se pueden utilizar también como parte de la misma los nombres de las operaciones de tablas definidos en variables o secuencias anteriores de la misma variable. Esto se hará anteponiendo una N al nombre del operador. Los estadísticos a utilizar son:
- S0 …de la base de registros
- S1 …de la suma de los casos
- S2 …de la media de los casos
- S3 …del caso máximo
- S4 …del caso mínimo
- S5 …de la desviación típica
- S6 …de la varianza
- S7 …del coeficiente de variación
- S13 …de la base de cálculo
- S14 …de la suma cuadrada
- S15 …de la suma doble
- S16 …del % base menciones
- S17 …de la base no ponderada
- S18 …de la base de cálculo especial (información junto al nombre de la variable en tablas)
Algunos ejemplos:
- Indice_1; C1 + C2; Sumar los códigos 1 y 2 de la variable
- Indice_2; C2 + C3 – C1; Sumar los códigos 2 y 3 y restar el código 1
- Indice_3; (Nindice_1 + C1) * 1000 / C4; Sumar al índice_1 el código 1 y multiplicar el resultado por 1000, dividendo el total por el código C4
- Indice_4; S2 – C1; Resta a la media el valor del código 1
10.4 Rangos de estadísticos
En ocasiones, el usuario puede determinar que los cálculos estadísticos se realicen sólo sobre un rango (o varios rangos diferentes) de valores. Aquí determinamos los mismos. Tres ejemplos de utilización serían:
- Cálculo de una media estadística al rango de valores de 0-100 o de 1-100, de forma que tengamos dos medias, contando el 0 como valor o sin contar.
- Cálculo de una media aritmética para los valores de 0 a 50 y otra para los valores de 51 a 100, así tenemos valores medios para la serie alta y valores medios para la serie baja.
- Cálculo de un estadístico contemplando una escala de 1 a 5 y excluyendo el 99 utilizado para el no contesta.
10.5 Bases
(El acceso al módulo de bases se realiza desde la entrada Datos > Bases, del menú principal)
El concepto de base se debe asociar con el concepto de SUBTOTAL. Una base no es más que una fila de totales que nos informa del número de casos sobre los que se calculan los porcentajes y que filtra los casos que deben ser procesados en las filas que a continuación se listan.
Por ejemplo, cuando se realiza una tabla sin hacer selección de casos, el TOTAL de registros tabulados coincide normalmente con el total de casos que hay en el fichero. Pero imaginemos ahora que en una base de datos, como suele pasar en la realidad, haya una serie de variables que sólo pueden tener información si se cumple una condición, por ejemplo:
- Marca de tabaco que fuma, número de cigarrillos consumidos: si fuma.
- Gasto en pinturas: si la industria utiliza pinturas.
Podemos intuir, que normalmente será incongruente para el investigador recibir resultados porcentuales de esas variables tomando como base el TOTAL de casos. Por lo tanto cualquier porcentaje de esas variables no deberá hacer referencia al 100% de la base de datos sino a los que cumplan la condición de la base (fumadores e industrias utilizadoras de pinturas, en los ejemplos citados). Para el programa, pues, una base no deja de ser una nueva fila de TOTALES a partir de la cual los porcentajes de las variables implicadas en la base serán calculados tomando como 100% sólo los registros que cumplen la condición especificada en la base.
Ver uso de bases en las tablas para comprender mejor con ejemplos sus utilización.
10.5.1 Uso de bases
Disponemos del fichero Ejemplos de bases.gbw7 que procedemos a abrir. Aquí mostramos un extracto del mismo, donde se puede apreciar que hay un salto cuando el individuo no FUMA a la variable EDAD y un salto del individuo que no fuma cigarrillos a la variable EDAD. Esto ocasiona que las variables MARCA y NUMERO, tengan bases diferentes del total de 300 casos que tiene el fichero.
Al procesar la información, podemos observar como las bases han generado dos filas en color azul que nos indican la base de casos (registros) que pasan a ser procesados a partir de ese momento. Hágase notar que los 154 casos de la base FUMADOR coinciden con los 154 casos de personas que nos respondieron que si fumaban. Del mismo modo, los 36 que fumaban cigarrillos, son los que posteriormente conforman también la base FUMA GIGARRILLOS. Así, el cálculo de porcentajes se ve modificado. Tras el dato del número de cigarrillos fumados, regresamos a la BASE TOTATL de casos, y se procesa la variable EDAD.
Queremos denotar también, que tras la aplicación de la base “forzada” por el usuario, también se aplica de forma automática la base de filtros. Al estar filtradas por los saltos correspondientes las variables TIPO y NUMERO, muestra junto al nombre de la variable el nº de casos válidos (casos que entran en la base) de esos registros.
10.5.2 Crear / Editar bases
Una base queda definida por un nombre (será el que aparecerá al presionar el botón de base en el cuadro de diálogo de tabulación) y una condición sobre los registros del fichero. Las bases se almacenan junto con la base de datos y pueden añadirse, borrarse, o modificarse las existentes presionando los botones habituales de abrir, papelera o disco. Para acceder al gestor de bases, hacer clic en la barra de menú Tabulación >> Bases >> Estudio >> Bases de cálculo. Aparece una ventana donde se pueden introducir las bases. Una base queda definida por un nombre que la identifica y por una condición que selecciona los registros que forman parte de la base que engloba la misma.
Como se puede observar en la base de la ventana, tenemos las opciones habituales de ayuda, eliminación de bases (filas) copiar, pegar calculadora para redacción de condiciones.
10.5.3 Eliminar bases
Para eliminar una base, basta con aplicar el botón en el diálogo de gestión de las bases. La base de datos desaparace y es eliminada de todas aquellas variables a las que estuviera asociada. Pueden ser seleccionadas varias bases simultáneamente si son correlativas.
10.5.4 Asociar bases
Existen diferentes formas de asociar las bases creadas a las variables. La utilización de cada una de ellas tiene que ver con la tradición en el uso (los usuarios más antiguos sólo tenían una). La asociación d euna base a una variable, implica que cuando seleccionamos la variable para tabular, ya tendrá asociadas todas sus bases y no será necesario hacerlo desde el propio diálogo de tabulación.
La forma más sencilla de asociar bases a las variables o campos de respuesta es hacerlo es desde diseño de variables, en propiedades de tabulación. Para hacerlo de esta forma, seleccionaremos en la tabla de variables o en el explorador de variables, la variable o variables, a las que queremos asociar una o varias bases.
Cuando ya tenemos seleccionadas las variables y manteniendo el ratón sobre la zona azul de selección, clic en el botón derecho del ratón y en el menú contextual que se presenta elegimos asociar bases, apareciendo de forma instantánea la imagen anterior. Si hemos seleccionado una variable se asociará sólo a ella, si hemos elegido un grupo de variables se asociará a todas ellas.
Las bases se almacenan junto con la base de datos y pueden añadirse, borrarse, o modificarse las existentes presionando los botones habituales de abrir, papelera o disco.
10.5.5 Borrar (bases)
En más de una ocasión, seguramente se ha producido un error con la opción de asociación de bases. Esto hace que para eliminar las bases asociadas, se debe ir a cada variable y eliminar sus bases. Con esta opción, se eliminan las asociaciones de base a variables, sin necesidad de eliminar la base.
Simplemente, deberemos seleccionar las variables de las que eliminaremos TODAS las bases.
Relacionar bases de estudio y variables
Hemos visto en el apartado anterior la versión “antigua” del asociar bases. La nueva fórmula, de asociarla hemos venido a denominar relacionar bases y variables. Mediante esta fórmula, el usuario dispone de la lista de variables y bases, y tan solo debe ir haciendo clics en el diálogo que relaciona.
Si hacemos clic en tres variables, clic en dos bases y clic en el botón de relacionar, conseguiremos que las dos bases se asocien a las tres variables de forma simultánea.
Es importante saber que el listado de relaciones se puede copiar y pegar del/al portapapeles. Esto resulta de gran utilidad en bancos de datos de gran dimensión, donde se pierde la perspectiva del conjunto de datos. Ver también combinar bases y variables, para relaciones de bases con estructuras repetidas.
Combinar bases de estudio y variables
Utilidad que permite agilizar la asociación entre bases del estudio y variables. A diferencia del caso anterior más simple, aquí podemos relacionar: - una base a una variable (1 a 1) - n bases a una variable (n a 1) - 1 base a n variables (1 a n) Como podemos observar, el modo de definir las asociaciones responde a estructuras complejas de variables. Un ejemplo podría ser:
Selecciono dos bases y selecciono 8 variables. La relación al establezco en 1 a 8. eso quiere decir que cada base la asociaré a las 8 variables. Repetimos dos veces el proceso, una vez con la base hombre y otra vez con la base mujer.
10.5.6 Bases (subtotales) de código
Así como existe el concepto de base de estudio, existe en Gandia BarbWin el concepto de base de código. Su particularidad es que en lugar de ejerce de base de ca´clulo para todos los códigos (filas) de una variable, lo hace sólo sobre aquel código sobre el que está asociado, es decir es una base de filas particulares y por ende, pueden haber diferentes bases aplicadas a diferentes filas dentro de una misma variable.
Al hacer clic sobre tabulación >> bases >> códigos se accede a un gestor de bases, y en cada una de las varibales, localizamos en las propiedades de tabulación de cada variable, un botón que nos permite definir e incluir bases de cálculo particulares de cada variable para cada uno de sus códigos. Vemos este proceso de creación en el aparatdo de crear / editar base y su posterior asociación en asociar bases a códigos.
10.5.6.1 Crear / editar base de código
Desarrollamos un ejemplo para ilustrar su utilización. Imaginemos que tenemos tres variables en una base de datos que se identifican con los siguientes conceptos:
- Conoce: productos de tecnología móvil que conoce
- Valora: productos de tecnología móvil que valoraría adquirir en una elección de soporte
- Compra: producto que finalmente adquirió
Disponemos de una base de datos de 100 casos (ejemplos de bases con códigos.gbw7) .Si hacemos una tabla de frecuencias normal, obtenemos la siguiente información:
Rápidamente podemos darnos cuenta que aunque estos resultados son válidos, el análisis de los datos puede quedarse “corto”, ya que sería muy interesante conocer los % de valoración sobre el conocimiento y el % de compra sobre la valoración. El 62% de valoraciones que sobre la marca 1 se hacen, está calculado en base al 100 de casos, pero apreciamos que su base real debería ser 76, es decir los 62 casos que valoran la marca 1 calculados sobre el conocimiento de la marca 1.
Para crear las bases de códigos acudimos al gestor de bases de código, con igual funcionalidad que en las bases de estudio. Clic en tabulación >> bases >> códigos.
Esta ventana nos ofrece un gestor de bases donde podemos dar de alta una base, editar y borrar. En este gestor las bases pueden ser editadas y eliminadas. Una vez tenemos creadas las vraiables estamos en disposición de poder utilizarlas. Para hacer uso de ellas y asociarlas a las variables, accedemos a la variable correspondiente y en las propiedades de tabulación señalamos la opción bases de códigos. Si posteriormente a la creación, asociamos a cada código su base correspondiente, obtendremos el resultado:
Vemos que ahora en la variable VALORA aparece una fila nueva por cada fila de la variable. Aunque su frecuencia es la misma (es evidente que no cambia el número de concurrencias a repeticiones de la marca) el porcentaje calculado. Ver Para ello asociaremos a cada código de valoración la base correspondiente del producto conocido. Ver el paratdo correspondiente sobre asociación de bases de códigos a variables.
10.5.6.2 Asistente de bases
Con el objeto de agilizar la creación de bases ya que en muchos casos se se suelen dar situaciones de aplicar bases de estructura muy similar (por ejemplo, tener una variable provincia y querer crear una base de cada una de las provincias), se proporciona ahora un diálogo desde el que se pueden crear rápidamente conjuntos de bases sobre códigos de variables.
Este diálogo presenta la mecánica habitual de trabajo:
- Selección de variables
- Seleccionar tipo de combinación entre las variable, tipo O ó tipo Y, por ejemplo hombre y rubio o hombre o rubio
- Si se elige combinada, tipo de relación: unitaria no hay combinación, código a código (típica para espontáneo + sugerido), todos por todos, hace todos los cruces posibles entre las categorías de las variables
- Por último, se puede Mostrar el nombre de todas las variable o no hacerlo y también si la combinación es código a código, dejar sólo los códigos de la primera variable, evitando así la repetición del mismo texto varias veces en el nombre del código
Aquí incluimos una muestra del diálogo. Sobre el fichero de ejemplo de bases, selecionamos la variable MARCA y clic en el icono para obtener el listado de nuevas bases.
Las bases creadas con este método pueden ser uitarias (ejemplo) o combinadas y utilizando el operador Y u O. Las dos opciones que se dan en combinadas son:
- Todos los códigos, cada código de una variable se combina con todos los códigos de las restantes
- Código a Código, cada código se combina con el mismo índice de código de las restantes variables. Atención, se utiliza el orden, no el texto del código para identificarlos.
Por último, se puede solicitar que se añada el nombre de la variable junto con el texto de los códigos.
10.5.6.3 Eliminar bases de código
Para eliminar una base del conjunto, debemos acceder al gestor de bases y seleccionar la fila correspondiente. Haciendo clic sobre el botón , se elimina su contenido. Al mismo tiempo, se elimina la asociación de la base de códigos.
10.5.6.4 Asociar bases de códigos
Una vez tenemos creadas las variables estamos en disposición de poder utilizarlas. Para hacer uso de ellas y asociarlas a las variables, accedemos a la variable correspondiente y en las propiedades de tabulación señalamos la opción bases de códigos.
Accedemos a un gestor de bases, donde asociaremos cada base a cada código. Destacamos la presencia de las categorías especiales que también pueden verse afectadas por una base de código. La operativa consistiría en ir enlazando cada código con aquella base que le afecta, para elo clic en .
Al aceptar, la base queda asociada a la variable. Esta base puede tener en cuenta o no la ponderación de estudio, tanto si el fichero está ponderado, como si no lo está, por lo que lo habitual sería, que si creamos una base de código en un fichero que estuviera ponderado, se activará la casilla de ponderada. Las siguientes opciones permiten eliminar las bases seleccionadas en los códigos , crear bases a partir de variables o añadir bases nuevas al gestor de bases de códigos. Cuando hayamos definido las asociaciones, aceptamos, y debemos confirmar que confirmamos que la opción de mostrar códigos con bases y calcular códigos con bases estén con el check activado.
10.6 Tipos de tabla
Llamaremos tablas de resultados básicas a aquellas tablas de frecuencias en las que no vamos a utilizar estadísticos en las combinaciones. De todas formas, en este tipo de tablas, el usuario con sólo activar una opción puede calcular de forma automática la media y la desviación de las variables numéricas. Tenemos dos grandes tipos de tablas, de registros, de grupos de registros.
Tablas de registros|Frecuencias|Marginales ||Cruzadas |Estadísticos|Marginales ||Cruzadas |Estadísticos en celda| Tablas de grupo de registros|Frecuencias|Marginales ||Cruzadas |Estadísticos|Marginales ||Cruzadas
Tras conocer esta clasificación nos resta saber cómo solicitar a Gandia Barbwin que nos muestre en pantalla una tabla.
Damos una lista de pasos a seguir para obtener tablas en pantalla:
- Establecer las opciones del estudio que afecten a tabulación, página y visualización
- Establecer las opciones adecuadas de tabulación para las variables que participarán en la tabla.
- Establecer la selección de casos sobre los que se trabajará. Si no hay selección, se trabajará sobre el total.
- Establecer la ponderación que se debe utilizar en general para el fichero. Recordamos que una variable puede tener una variable de ponderación distinta a la general del fichero.
- Establecer la variable/s de grupos de cálculo. Recordamos que esta opción permite reproducir la tabla solicitada tantas veces como categorías (unitarias o combinadas) existan entre las variables seleccionadas.
- Seleccionar el tipo de tabla a obtener.
- Visualizar la tabla en pantalla (frecuencias absolutas o estadísticos). Desde esta ventana se pueden variar los resultados a porcentajes, pruebas de significación, etc..
10.6.1 Petición de tablas
Damos una lista de pasos a seguir para obtener tablas en pantalla: - Establecer las opciones del estudio que afecten a tabulación y visualización - Establecer las opciones adecuadas de tabulación para las variables que participarán en la tabla. - Establecer la selección de casos sobre los que se trabajará. Si no hay selección, se trabajará sobre el total. - Establecer la ponderación que se debe utilizar en general para el fichero. Recordamos que una variable puede tener una variable de ponderación distinta a la general del fichero. - Establecer la variable/s de grupos de cálculo. Recordamos que esta opción permitía reproducir la tabla solicitada tantas veces como categorías (unitarias o combinadas) podían existir entre las variables seleccionadas. - Seleccionar el tipo de tabla a obtener y Aceptar. - Visualizar la tabla en pantalla (frecuencias absolutas o estadísticos). Desde esta ventana se pueden variar los resultados a porcentajes, pruebas de significación, etc..
Dado que todos los diálogos de tabulación son iguales, nos permitimos el poner como muestra el más completo e indicar sus partes:
1.|Los textos que se escriban en la zona 2, se alinearán de esta forma. 2.|Texto de cabecera de tabla 3.|Variables del archivo abierto para seleccionar 4.|Variables que se presentaràn en la columna 5.|Variables que se presentarán en filas 6.|Posibilidad de asignar bases (no asociadas ya) a las variables // Repetir selección anterior de variables // Insertar salto de página, detrás de la variable seleccionada. 7.|Texto del pie de la tabla 8.|Orden jerárquico de las filas cuando hay bases. Predomina el orden de la variables sobre las bases (sólo aparece una vez la variable con todas sus bases) o predomina la base sobre las variables (sólo aparece la base una vez con todas sus variables)
En la base del diálogo tenemos los iconos típicos de ayuda, etiquetas, restablecer, abrir macro y guardar macro.
10.7 Tablas de registros
Denominamos tablas de registros a aquellas tablas que utilizan como base normal, el número de casos del fichero de datos, identificando cada registro como una unidad de cuenta o frecuencia. En este tipo de tablas, los recuentos marginales o cruzados informan sobre el número de casos que cumplen una condición dada, que en las tablas marginales será la definida por la fila, y en las tablas cruzadas será la definida por la intersección de la categoría de columna y la categoría de fila. Mientras el fichero de datos no se encuentre ponderado, la unidad de cuenta de cada registro será la unidad. A continuación listamos unos ejemplos de cada tipo de tabla para ver su salida.
10.7.1 Tablas marginales (frecuencias)
Una tabla de marginales es aquella tabla que presenta tan sólo 2 columnas de resultados, el absoluto o frecuencia absoluta y el porcentaje o frecuencia relativa de la alternativa de respuesta. Para proceder a su cálculo, debemos seguir los pasos: tabulación >> marginales de frecuencias El diálogo que se presenta nos permite elegir entre las variables de nuestro archivo, ordenado alfabéticamente, por grupos o directamente.
10.7.2 Tabla marginal de frecuencias y diálogo
Podemos observar las dos columnas indicadas con el cálculo de la frecuencia en base registros. La tercera columna que aparece es el acumulado porcentual de la segunda columna. Si la variable es de tipo múltiple no se acumula.
10.7.3 Tablas de frecuencias
Una tabla de frecuencias es aquella tabla que presenta el cruce de las columnas (códigos de la variable) por las filas (códigos de la variable), el absoluto o frecuencia absoluta y el porcentaje o frecuencia relativa de la alternativa de respuesta. Para proceder a su cálculo, debemos seguir los pasos: tabulación >> frecuencias El diálogo que se presenta nos permite elegir entre las variables de nuestro archivo, ordenado alfabéticamente, por grupos o directamente.
10.7.4 Tablas marginales (estadísticos)
Una tabla de marginales es aquella tabla que presenta tan sólo 1 columna de resultados, el estadístico de la alternativa de respuesta. Para proceder a su cálculo, debemos seguir los pasos: tabulación >> marginales de estadísticos. El diálogo que se presenta nos permite elegir entre las variables de nuestro archivo, ordenado alfabéticamente, por grupos o directamente.
10.7.5 Tabla marginal de frecuencias y diálogo
Ídem que las tablas marginales de frecuencias, pero mostrando los estadísticos listados.
10.7.6 Tablas de estadísticos
Una tabla de marginales es aquella tabla que presenta tantas columnas (o filas) como las alternativas de respuesta de la variable de la que no se calculan estadísticos y tantas filas (o columnas) como estadísticos solicitados. Para proceder a su cálculo, debemos seguir los pasos: tabulación >> estadísticos
El diálogo que se presenta nos permite elegir entre las variables de nuestro archivo, ordenado alfabéticamente, por grupos o directamente.
10.7.7 Tablas de estadísticos de celda
Tablas complejas (tres dimensiones) donde se calculan los estd´sticos de una tercera variable, utilizando en en columnas y filas las posibilidades de respuesta de dos variables. La diferencia entre nueva y clásica es que la primera de ellas muestra todos los estadísticos en la misma tabla como columnas diferentes, mientras que la nueva muestra los estadísticos diferentes en tablas diferentes, seleccionables desde el desplegable situado en la zona inferior de la ventana.
10.8 Tablas de grupos de registros
Antes de definir este tipo de tablas debemos definir el concepto de grupo de registros. Un grupo de registros en aquyel conjunto de registros que en una determinada variable comparten un mismo valor de identificación, por lo que aunque ocupando diferentes filas (registros) estas informaciones forman parte de un mism todo (el grupo) que queremos tratar conjuntamente. Está íntimamente relacionado con los niveles de análisis en proceso de datos. Un ejemplo muy típico podría ser disponer de cierto número de registros de los individuos de varios hogares (cada individuo, de cada hogar, sería una fila en el archivo y todos los individuos de un mismo hogar,m tiene el mismo valor en un campo que identifica que son miembros de ese hogar (por ejemplo el nº de cuestionario original en el que se recogieron originalmente los datos).
Denominamos tablas de grupos de registros a aquellas tablas que utilizan como base normal, el número de grupos del fichero de datos, identificando cada grupo como una unidad de cuenta o frecuencia. En este tipo de tablas, los recuentos marginales o cruzados informan sobre el número de grupos que cumplen una condición dada, que en las tablas marginales será la definida por la fila, y en las tablas cruzadas será la definida por la intersección de la categoría de columna y la categoría de fila.
Mientras el fichero de datos no se encuentre ponderado, la unidad de cuenta de cada grupo será la unidad.
Métodos 1 y 2 en frecuencias:
- Método 1 implica que se añadirá una frecuencia de grupo cuando se cumpla la condición de fila y columna de forma conjunta en el mismo registro (individuo) y
- Método 2, cuando se cumpla la condición en el mismo grupo, pero no necesariamente en el mismo registro.
Por ejemplo en una tabla de SEXO y EDAD, el método 1 buscaría individuos de – 18 años y hombres, y si encuentra alguno sumaría una frecuencia de 1. El método 2, buscaría hogares donde hubiera individuos – 18 años y también hombres pero no haría falta que fuera el mismo individuo.
Métodos 1 y 2 en estadísticos
Idem al anterior pero con el cálculo del estadístico.
¿Qué significa “estadístico intra”? Es el estadístico que se calculará dentro del grupo para obtener el estadístico ENTRE GRUPOS. Por ejemplo, para calcular la media de consumo de hogar, podemos hacerlo calculando la suma (estadístico INTRA) de los consumos de cada individuo en el hogar y luego obteniendo la media entre grupos, o también calculando el consumo máximo de un hogar y calculando la media entre grupos, etc..
¿Qué significa “selección de grupo”? Condición que debe cumplir el grupo (cualquiera de sus miembros) para entrar en el análisis. Se ejecuta en un orden inferior a la selección de registros.
10.8.1 Tablas marginales (estadísticos) en grupos
Idem de su homónima sin grupos de registros.
10.8.2 Tablas de frecuencias en grupos
Idem de su homónima sin grupos de registros.
10.8.3 Tablas marginales (estadísticos) en grupos
Idem de su homónima sin grupos de registros.
10.8.4 Tablas de estadísticos en grupos
Idem de su homónima sin grupos de registros.
10.8.5 Tablas de estadísticos de celda en grupos
Idem de su homónima sin grupos de registros.
10.9 Resumen de estadísticos
Tipo de tabla que resume un estadístico en filas o columnas cruzado con una variable (sus códigos) creando una tabla de doble entrada. Es un caso específico de tabla de estadísticos donde se han eliminado todos los espacios en blanco para que los estadísticos sena filas (o columnas) de una tabla.
10.10 Resumen de bases
Tabla que permite ver de un vistazo la situación de bases de cada pregunta (campo) de una base de datos. Se aplican las propiedades de tabulación que tenga cada variable activa en el momento de obtener la tabla.
10.11 Tablas de escala
Las escalas son un tipo especial de tabulación, donde lo que se busca es la representación conjunta de un grupo de variables que comparten la misma codificación y que dependiendo de su tipo, permiten conocer los valores porcentuales o estadísticos (media y desviación. La salida y el tratamiento de la información es compartido con el resto de tabulaciones de Barbwin. El objetivo es que dado que los códigos de las variables son iguales en todos los caso, estos textos de los códigos se muestran en cabecera y se conforma un cuadro con los porcentajes. Si la variable elegida es múltiple o categoría, no se muestra la media.
10.12 Cuadros especiales
Los cuadros especiales están formados por conjuntos de variables con igual estructura que quieren ser tabuladas en un único cuadro. El diálogo muestra una estructura similar al de la creación de subficheros (en el fondo su funcionamiento es muy similar), debiendo ubicar en la rejilla inferior las variables con estructura repetida. Debemos contemplar esta opción como una extensión de las escalas, puesto que se diferencia de éstas en que:
- No se pueden realizar pruebas t
- Permite incluir grupos diferenciados de variables
- Permite trabajar con textos preformateados de los cuales ponemos las instrucciones para que quede un cuadro limpio y bien estructurado
- Permite incluir grupos de bases diferenciados
- Permite crear grupos consecutivos de variables para ser más eficiente en la petición del cuadro.
10.13 Escalas de estadísticos
Nueva tabla que muestra en formato de cuadro, el resumen de estadísticos de un grupo de variables.