Find antal med unikke værdier i STATA

Her får du forskellige metoder til at bestemme antallet af rækker, der hver har en unik værdi i en bestemt variabel i STATA.

STATA er et avanceret statistikprogram, der kan arbejde med store datasæt. Nogle gange vil du gerne finde ud af hvor mange rækker, der har hver sin unikke værdi i en bestemt variabel. For eksempel kan det jo være at du behandler flere ordre for samme kunde, og du har en række pr. kunde. For at finde antallet af kunder du har, kan du så være interesseret i at finde ud af hvor mange unikke kundenumre du har.

Én simpel mulighed for at beregne antallet af unikke rækker er følgende kommando:

tab kundenr, nofreq
display r(r)

Tab er jo netop en kommando som opstiller en tabel med de forskellige muligheder der findes for en bestemt variabel. Her kunne du så tælle antallet af observationer i denne tabel, og så ville du have svaret. Men du ville jo hellere have STATA til at tælle og give dig svaret. Ved at skrive nofreq, vises tabellen for tab ikke. Resultater af såkaldte r-klassekommandoer i STATA, inkl. tab, gemmes i r(). Når du så skriver display r(r) får du vist antallet af rækker i denne tabel. Bemærk at du her også kan skrive en betingelse for tab-kommandoen:

tab kundenr if (stamkunde==1), nofreq
display r(r)

Her har vi f.eks. valgt at STATA kun skal kigge på de kunder, som i variablen stamkunde har værdien 1.

Du kan også vælge at bruge kommandoen codebook:

codebook kundenr if (stamkunde==1)

Dette giver en liste med forskellige informationer, herunder hvor mange unikke værdier der findes. Du kan også her vælge at indsætte betingelser.

Det bør også nævnes at kommandoen inspect også kan anvendes:

inspect kundenr if (stamkunde==0)

Dette giver antallet af unikke poster, men hvis dette antal overstiger 99, skriver den “More than 99 unique values”. Herudover tegner den også et histogram, og du kan få et overblik over negative, nul, positive og blanke værdier.

Skriv et svar