Podstawowe operacje na plikach danych

advertisement
Podstawowe operacje
na plikach danych
Standardowo w menu edytora danych znajdują się następujące polecenia:
Plik – operacje na plikach danych, wczytywanie i zapisywanie danych;
Edycja – kopiowanie, wklejanie itp.;
Widok – zarządzanie paskami narzędzi i stanu;
Dane – operacje na danych;
Przekształcenia – operacje na zmiennych;
Analiza – analizy statystyczne i raportowanie;
Wykresy – tworzenie wykresów;
Narzędzia – informacje o zmiennych, konfigurowanie rozwijanego menu;
Okno – przechodzenie między oknami, zmiana atrybutów okien;
Pomoc – uzyskiwanie pomocy.
W Edytorze danych SPSS można pracować podobnie jak w arkuszach kalkulacyjnych – bezpośrednio usuwać, czy też wpisywać dane do komórek bazy danych.
Ten styl pracy nie jest jednak godny polecenia w przypadku pracy na dużych zbiorach danych, gdyż dokonywane w ten sposób zmiany nie są w żaden
sposób dokumentowane. Lepszym rozwiązaniem jest korzystanie z dostępnych
w SPSS poleceń pozwalających na przekształcanie danych. Pracując w ten
sposób, zawsze mamy możliwość prześledzenia historii zmian dokonywanych
w bazie danych (śledząc komendy w oknie języka poleceń SPSS). Jeśli jednak
zdecydujemy się na pracę z danymi poprzez bezpośrednie usuwanie, wycinanie
i wklejanie komórek, warto wcześniej utworzyć kopię pliku z danymi. Ostrożności nigdy nie za wiele, dlatego w trakcie pracy z plikami danych należy zwracać
szczególną uwagę na komunikaty programu z ostrzeżeniami dotyczącymi konsekwencji przeprowadzanych przez nas operacji.
23
Wprowadzenie do pracy z programem SPSS for Windows
4.1.
Struktura zbiorów danych
Dane analizowane za pomocą pakietu SPSS for Windows zorganizowane są
w zmienne i obserwacje. Zmienne są odpowiednikiem cechy statystycznej (np.
wiek, płeć itp.) i ich własności są przedmiotem analiz wykonywanych za pomocą pakietu SPSS for Windows; każda obserwacja to pojedynczy badany obiekt
(respondent, faktura, wynik eksperymentu, itp.). Struktura danych jest podobna do struktury danych arkuszy kalkulacyjnych (np. MS Excel, Lotus 1-2-3).
Na zawartość edytora danych składają się dwa główne elementy: dane
„właściwe” i dane słownikowe opisujące ich znaczenie, formaty prezentacji
wartości itp.
Definicje danych słownikowych dla zmiennych można ustawić przechodząc do
zakładki Zmienne znajdującej się w lewym dolnym rogu okna Edytora danych lub
wybierając z menu Widok opcję Zmienne (rys. 4.1).
W zakładce Zmienne znajduje się tabelaryczny edytor definicji zmiennych. Liczba wierszy w edytorze odpowiada liczbie zmiennych w zbiorze danych. W kolumnach znajdują się definicje poszczególnych ustawień dla zmiennych:
Nazwa – nazwy zmiennych;
Typ – typ zmiennej (np. numeryczny, tekstowy, data);
Szerokość – liczba znaków dla zmiennej;
Dziesiętne – dopuszczalna liczba miejsc po przecinku;
Etykieta – długi opis zmiennej (np. „Kraj odbiorcy”);
Wartości – etykiety dla wartości (np. 1 – „Polska”);
Braki danych – wartości, poprzez które określane są braki danych;
Kolumny – szerokość kolumny dla wybranej zmiennej w Edytorze danych;
Wyrównanie – sposób wyrównania wartości wyświetlanych w Edytorze danych
(do prawej, do lewej, wyśrodkuj);
Poziom – poziom pomiaru zmiennej.
Nazwy zmiennych mogą składać się maksymalnie z 64 znaków (dopiero od wersji 12 programu SPSS), mogą zawierać wszystkie znaki oprócz znaków specjalnych (np. ∗) i muszą rozpoczynać się od litery. W zbiorze nie mogą występować
zmienne o tych samych nazwach.
24
Podstawowe operacje na plikach danych
zakładka „zmienne”, zawierająca definicje informacji słownikowych
Rysunek 4.1. Okno edytora definicji zmiennych
Jako nazw zmiennych nie można używać zastrzeżonych słów: ALL, AND, BY,
EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH. Duże i małe litery nie są
rozróżniane w nazwach zmiennych, tzn. nazwy zmiennych nAzWa1 i nazwa1
są dla SPSS identyczne. Nazwy zmiennych nie mogą kończyć się kropką.
W SPSS for Windows można definiować zmienne różnego typu:
Numeryczny – są to liczby, np. 100.86 lub 1 000 000 – znak oddzielający część
dziesiętną zależy od konfiguracji systemu Windows;
Przecinkowy – są to liczby w formacie numerycznym, w którym przecinkami
oddzielone są kolejne potęgi tysiąca, a kropka oddziela części dziesiętne, np.
100.86 lub 1,000,000.15;
Z kropką – części dziesiętne zapisywane są po przecinku, a tysiące po kropce,
np. 100,86 lub 1.000.000,15;
Notacja naukowa – liczby w postaci xEy = x · 10y, np. 1.0086E2 lub 1e + 6
(zamiast litery E możemy mieć D lub znak wykładnika y);
25
Wprowadzenie do pracy z programem SPSS for Windows
Data i czas – zmienne zawierające daty lub czas;
Dolar – format zapisu waluty USD, np. $100,86;
Format użytkownika – formaty liczbowe zdefiniowane przez użytkownika, np.
waluty;
Tekstowy – zmienne tekstowe.
SPSS pozwala na zadeklarowanie wielu dodatkowych, rzadziej używanych for-
matów zmiennych z poziomu języka poleceń.
Zmiennym możemy przypisywać etykiety (Etykieta zmiennej) o długości do
256 znaków. Etykietą taką może być np. treść pytania, opis zmiennej, jej pełna nazwa itp. W wynikach analiz zamiast nazw zmiennych wykorzystywane
są etykiety, co w efekcie powoduje, że otrzymujemy raport gotowy do zaprezentowania innym osobom. Jeżeli jednak użytkownik woli używać w raportach
nazw zmiennych, może zmienić ustawienia domyślne programu dotyczące sposobu raportowania.
Także każdej wartości zmiennej (zwykle jakościowej) możemy przypisać etykietę (Etykieta wartości). Etykieta wartości może składać się z 60 znaków. Etykiety
przypisujemy i modyfikujemy w oknie dialogowym Etykiety wartości. Okno to
wywołujemy po kliknięciu na komórkę w kolumnie Wartości dla wybranej zmiennej,
wybierając widoczny w prawym rogu tej komórki kwadracik.
W praktyce często zdarza się, że jakaś informacja nie jest dostępna lub nie ma
zastosowania (np. jeśli firma nie działała w styczniu, to nie poda informacji
o przychodach w tym miesiącu). Sytuacji takiej w zbiorze danych odpowiadają
brakujące obserwacje. W zbiorze danych są one reprezentowane przez pustą
wartość – brak danych. Wartość ta nie jest brana pod uwagę w większości
analiz (np. przy obliczaniu średniej).
W SPSS for Windows występują dwa rodzaje braków danych:
Systemowe braki danych – są to wartości automatycznie przypisywane przez
SPSS for Windows pustym komórkom w zbiorze danych. W edytorze danych
komórki takie są oznaczane przez kropkę.
Zdefiniowane braki danych – są to wartości wskazane przez użytkownika jako
kody brakujących wartości. Zdefiniowane braki danych umożliwiają rozróżnianie
przyczyn powodujących brak informacji.
Mogą one być:
dyskretne, np. 1 – „brak odpowiedzi”, 2 – „nie wiem”;
należeć do pewnego przedziału, np. (−1, 9999);
26
Podstawowe operacje na plikach danych
przybierać jedną wartość i należeć do pewnego przedziału, np. brakiem danych jest obserwacja, jeżeli jej wartość należy do przedziału
(−1, −9999) lub jest równa 1000.
Braki danych można definiować wybierając w kolumnie Braki danych komórkę
reprezentującą wybraną zmienną.
SPSS pozwala także na określenie skali pomiarowej dla każdej ze zmiennych.
I tak, w kolumnie Poziom możemy zadeklarować Ilościowy, Porządkowy lub Nominalny poziom pomiarowy zmiennej. W niektórych procedurach analitycznych
i wykresach ustawienia te mogą mieć wpływ na sposób traktowania zmiennej
w analizach i prezentacji zmiennej na wykresach.
Obok zmiennych definiowanych przez użytkownika istnieją także zmienne systemowe, np. zmienna numerująca obserwacje ($casenum), czy zmienna typu
data. Zmienne te możemy wykorzystywać w obrębie języka poleceń programu
SPSS oraz w przekształceniach realizowanych z użyciem interfejsu graficznego.
W zbiorze danych oprócz wartości zmiennych przechowywany jest również
słownik zawierający definicje wszystkich zmiennych i dodatkowe informacje
dotyczące danych, dlatego raz zdefiniowane etykiety, typ i kody braków danych
będą pojawiać się przy każdej następnej sesji pracy z tym plikiem danych.
Pełny opis zbioru danych możemy uzyskać za pomocą polecenia Pokaż opis pliku
z menu Plik. Informacje o pliku wypisywane są w oknie edytora raportów. Opis
poszczególnych zmiennych uzyskujemy wykorzystując opcje Zmienne z menu
Narzędzia (rys. 4.2).
przechodzi do wybranej zmiennej
w oknie edytora danych
wkleja nazwę wybranej zmiennej
do okna języka poleceń
Rysunek 4.2. Informacja o zmiennych
27
Wprowadzenie do pracy z programem SPSS for Windows
4.2.
Edytor danych
Edytor danych pakietu SPSS for Windows umożliwia pracę z danymi w sposób
analogiczny do arkusza kalkulacyjnego.
Obserwacjom w edytorze danych odpowiadają wiersze, a zmiennym – kolumny.
W komórkach edytora danych znajdują się wartości zmiennych dla określonych
obserwacji (rys. 4.3).
wiersz = obserwacja, np. respondent
kolumna = zmienna, np. sex
Rysunek 4.3. Edytor danych
Między komórkami możemy poruszać się za pomocą myszy, klikając na komórkę, do której chcemy przejść. Możemy także wykorzystywać w tym celu klawisze kursorów. Aktywna komórka jest okolona przez pogrubione linie,
a jej zawartość jest wyświetlana w górnym polu okna edytora danych zwanym
edytorem komórki. Po wybraniu komórki wpisujemy do niej wartość zmiennej
28
Podstawowe operacje na plikach danych
i naciskamy Enter lub wskazujemy kursorem inną komórkę arkusza danych. Jeśli wprowadzana wartość zmiennej nie jest zgodna ze zdefiniowanym typem
zmiennej, to błędna wartość nie zostanie wprowadzona.
W powyższy sposób możemy zastępować istniejące wartości zmiennych. Jeśli
zawartość komórki chcemy zmodyfikować (np. dopisać jedną cyfrę do wpisanej wcześniej liczby), to po wskazaniu komórki klikamy myszą na pole edytora
komórki lub wciskamy klawisz F2.
Edytor danych umożliwia kopiowanie, wycinanie i wstawianie fragmentów arkusza danych (bloków). Jeśli chcemy wykonać jakąś operację na bloku – zaznaczamy go. Aby zaznaczyć blok, przesuwamy wskaźnik myszy po przekątnej zaznaczanego bloku, jednocześnie przyciskając lewy klawisz myszy. Fragment arkusza możemy także zaznaczać za pomocą klawiatury, naciskając
Shift+klawisz kursora (lub inny klawisz nawigacyjny, np. PageUp). Pojedynczą
zmienną zaznaczamy naciskając Ctrl+Spacja, a pojedynczą obserwację – naciskając Shift+Spacja.
Zaznaczony blok możemy kopiować do schowka naciskając Ctrl+C (Edycja/Kopiuj), wycinać Ctrl+X (Edycja/Wytnij) oraz usuwać (Del). Znajdujący się
w schowku blok możemy umieścić w arkuszu danych Ctrl+V (Edycja/Wklej).
Przed wstawieniem bloku do arkusza zaznaczamy obszar, w który ma on być
wstawiony. Jeśli typ zmiennych w tym obszarze różni się od typu zmiennych
w kopiowanym bloku, zostanie dokonana automatyczna konwersja. Operacje
kopiowania, wycinania, usuwania i wklejania możemy przeprowadzić także
przy użyciu prawego przycisku myszy.
Wprowadzenie dowolnej wartości do komórki lub wiersza poza zakresem (poniżej) istniejących obserwacji powoduje automatyczne dodanie nowej obserwacji
do zbioru. Jeśli chcemy wstawić nową obserwację między istniejące obserwacje,
to z menu Dane wybieramy polecenie Wstaw obserwację. Nowe zmienne wstawiamy poleceniem Wstaw zmienną z menu Dane. Powyższe operacje można także wykonać za pomocą prawego przycisku myszy, klikając na numer wiersza, przed
którym chcemy wstawić obserwacje i wybierając Wstaw obserwację.
Aby wstawić nową zmienną postępujemy podobnie. Klikamy na nazwę zmiennej, przed którą chcemy wstawić nową zmienną i wybieramy opcję Wstaw
zmienną. Zmienne i obserwacje usuwamy po zaznaczeniu odpowiadających im
kolumn lub wierszy i wydaniu polecenia Usuń z menu Edycja lub korzystając
z prawego przycisku myszy.
29
Wprowadzenie do pracy z programem SPSS for Windows
Do wybranej obserwacji przechodzimy za pomocą polecenia Przejdź do z menu Dane (rys. 4.4). Natomiast do kolumny odpowiadającej wybranej zmiennej przechodzimy wybierając opcję Zmienne z menu Narzędzia. Następnie
w oknie dialogowym zaznaczamy nazwę zmiennej na liście i naciskamy przycisk
Przejdź do.
Rysunek 4.4. Przeszukiwanie danych
Jeśli analizy wykonywane są dla podgrupy obserwacji, to numery obserwacji
nieuwzględnianych w analizach są przekreślone.
W edytorze danych zamiast wartości zmiennych możemy wyświetlać przypisane wartościom etykiety. Etykiety będą wyświetlane w edytorze danych jeśli
z menu Widok wybierzemy Etykiety wartości. Do arkusza danych możemy wprowadzać etykiety zamiast wartości zmiennych. W tym celu po wybraniu komórki
klikamy na kwadracik z prawej strony wybranej komórki, a następnie z listy
wybieramy żądaną etykietę. Taki tryb wprowadzania działa wyłącznie wtedy,
gdy w menu Widok wybrana została opcja Etykiety wartości.
4.3.
Tworzenie nowego zbioru danych
Nowy zbiór danych tworzymy wybierając z menu Plik opcję Nowy, a następnie
Dane. Kolejnym krokiem jest zdefiniowanie zmiennych, które będą występowały w zbiorze danych. Zmienne definiujemy po przejściu do zakładki Zmienne
w lewym dolnym rogu Edytora danych. W oknie edytora definicji zmiennych wpisujemy nazwę zmiennej, typ i inne parametry opisane w rozdziale „Struktura
danych”.
Dane mogą być wprowadzane do programu SPSS analogicznie jak w przypadku arkuszy kalkulacyjnych lub pobierane z pliku zewnętrznego. W przypadku
wprowadzania danych bezpośrednio do okna edytora danych programu SPSS
warto pamiętać, iż istnieją też inne możliwości wprowadzania danych, np. za
pomocą SPSS Data Entry.
30
Podstawowe operacje na plikach danych
Przy definiowaniu i tworzeniu wielu zmiennych wygodnie jest korzystać z kreatorów ułatwiających definiowanie właściwości i ich kopiowanie pomiędzy
zmiennymi. Kreatory te dostępne są w menu Dane.
Pierwszy z nich uruchamiany jest po wybraniu z menu Dane opcji Definiuj zmienne. Kreator ten jest szczególnie użyteczny w sytuacji, gdy dane do programu
SPSS wczytaliśmy z zewnętrznej aplikacji, a chcemy dokonać zmian formatów,
dopisać etykiety itp.
Pierwsze okno kreatora definicji zmiennych pyta o listę zmiennych, dla których
chcemy dokonać definicji różnych własności (rys. 4.5).
lista opisywanych zmiennych
zawężenie zakresu
skanowanych obserwacji
zawężenie zakresu
wyświetlanych wartości zmiennych
Rysunek 4.5. Wybór zmiennych
Zmienne te zostaną następnie zeskanowane, tzn. kreator sprawdzi ich rozkład.
Ponieważ w przypadku bardzo dużych zbiorów danych procedura skanowania
może zająć dużo czasu, możemy ograniczyć proces skanowania do zadanej liczby rekordów (Ogranicz liczbę skanowanych obserwacji do). Ograniczeniu można także
poddać liczbę wyświetlanych wartości zmiennych (Ogranicz liczbę wyświetlanych
wartości do). Zwiększanie zadeklarowanej w tym oknie domyślnej wartości powoduje zwiększanie obciążenia komputera. Zadeklarowana domyślnie wartość
200 zwykle wystarczy, aby zorientować się co do poziomu pomiaru zmiennej.
31
Wprowadzenie do pracy z programem SPSS for Windows
Zmienne, których definicje chcemy zmienić, wybieramy przenosząc je do listy
Zmienne do zeskanowania, poprzez kliknięcie na strzałkę pomiędzy listami.
W kolejnym oknie kreatora (rys. 4.6) możemy zobaczyć listę wybranych zmiennych z sugerowanym poziomem pomiaru i informacją, czy wartości danej
zmiennej posiadają etykiety (kwadrat bez krzyżyka obok poziomu pomiaru
zmiennej).
informacje
o typie
i dostępności
etykiet
definiowanie
etykiet wartości,
kodów, braków
danych
definicja
poziomu
pomiaru
definicja
etykiet
zmiennych
definicja typu zmiennej
Rysunek 4.6. Definicja własności zmiennych
W oknie tym możemy definiować etykiety zmiennych i poziom pomiaru cechy oraz obejrzeć rozkład zeskanowanych wartości. W tabeli etykiet i wartości zmiennej można zaznaczyć, które wartości mają być traktowane jako
braki danych. Szczególnie użyteczne są tu opcje pozwalające na automatyczne
utworzenie etykiet wartości w oparciu o wartości zmiennej (Wartości bez etykiet)
i kopiowanie własności pomiędzy zmiennymi (Skopiuj własności). Po wybraniu
właściwych opcji dla poszczególnych zmiennych klikamy OK lub Wklej, jeśli
chcemy by własności zdefiniowane w tym oknie zostały wklejone do okna języka poleceń.
32
Podstawowe operacje na plikach danych
Innym przydatnym kreatorem jest kreator kopiowania własności, uruchamiany
poprzez wybranie z menu Dane opcji Kopiuj własności. Kreator ten to kompleksowe narzędzie do przejmowania informacji słownikowych, takich jak: etykiety,
formaty, kodowanie braków danych itp. w obrębie jednego pliku danych lub
pomiędzy plikami.
Pierwsze okno (rys. 4.7) zawiera pytanie o to, czy kopiowanie własności zmiennych będzie się odbywać pomiędzy plikami danych (Zewnętrzny plik danych SPSS),
czy w obrębie jednego pliku danych (Aktualny roboczy plik danych).
Rysunek 4.7. Wskazanie źródła danych z informacjami o kopiowanych własnościach
Jeśli chcemy kopiować własności z innego pliku danych, wskazujemy ścieżkę
dostępu do niego po wybraniu przycisku Przeglądaj. Plik taki można nazwać
plikiem słownikowym w stosunku do pliku roboczego.
Kolejny krok kreatora, to zdefiniowanie sposobu przejmowania własności pomiędzy zmiennymi (rys. 4.8). Jeśli przejmowanie odbywa się pomiędzy plikami,
w tym oknie kreatora aktywne będą wszystkie opcje.
33
Wprowadzenie do pracy z programem SPSS for Windows
kopiowanie informacji
o pliku danych
kopiowanie
z wybranej zmiennej
porównywanie
po nazwie zmiennej
Rysunek 4.8. Wskazanie zmiennych źródłowych i docelowych dla
kopiowanych własności
Pierwsza z nich: Zastosuj właściwości wybranych zmiennych źródłowych do pasujących
w pliku roboczym, powoduje porównanie nazw zmiennych pomiędzy zbiorami
i pojawienie się na liście Zmienne źródłowe tylko tych zmiennych, których nazwy
w obu zbiorach się powtarzają. Opcja ta ma podopcję: Utwórz pasujące zmienne
w roboczym pliku danych, jeśli jeszcze tam nie istnieją. Po jej zaznaczeniu na liście
Zmienne źródłowe pojawią się wszystkie zmienne z zewnętrznego pliku danych –
także te, których nazwy nie są współdzielone pomiędzy plikami. Jeśli następnie
na liście tej zaznaczymy wszystkie zmienne, będzie to oznaczało, iż na końcu
analizowanego pliku danych zostaną dodane nowe, puste zmienne o nazwach
i własnościach przejętych z pliku zewnętrznego.
Druga opcja: Zastosuj własności pojedynczej zmiennej źródłowej do wybranych zmiennych
tego samego typu, jest aktywna niezależnie od tego, czy własności zmiennych
34
Podstawowe operacje na plikach danych
są kopiowane pomiędzy plikami danych, czy w obrębie pojedynczego pliku
danych. Pozwala ona na wskazanie dowolnej zmiennej na liście Zmienne źródłowe
i dowolnej liczby zmiennych na liście Zmienne pasujące z pliku roboczego. Wybór
jest w tym wypadku niezależny od nazwy wybranych zmiennych, tzn. własności
można kopiować pomiędzy zmiennymi o dowolnych nazwach. Przykładowo,
mając baterię pytań mierzonych na tej samej skali od 1 – „zdecydowanie się
zgadzam”, do 5 – „zdecydowanie się nie zgadzam”, wystarczy nadać etykiety
pierwszej z nich, a następnie w kreatorze wskazać, iż przejmowanie własności
z tej zmiennej ma się odbywać na wszystkie pozostałe cechy mierzone na tej
samej skali.
Ostatnia opcja: Zastosuj tylko własności zbioru danych – bez wybierania zmiennych, aktywna jest tylko przy kopiowaniu własności pomiędzy plikami danych. Ogranicza ona kopiowanie własności tylko do tych, które dotyczą ogólnie pliku
danych, a nie poszczególnych zmiennych.
Po wybraniu pomiędzy jakimi zmiennych, czy zbiorami chcemy kopiować własności, przechodzimy do kolejnego okna kreatora (rys. 4.9).
Rysunek 4.9. Wybór kopiowanych pomiędzy zmiennymi własności
35
Wprowadzenie do pracy z programem SPSS for Windows
Na tym etapie decydujemy o kopiowanych pomiędzy zmiennymi własnościach.
Są to:
Etykiety wartości,
Kody braków danych,
Etykieta zmiennej,
Poziom pomiaru zmiennych,
Formaty zmiennych,
Wyrównanie danych w komórkach,
Szerokość kolumny danych.
Z opcją Etykiety wartości związane są dwie podopcje: Zamień lub Połącz. Pierwsza
z nich daje priorytet etykietom ze zmiennych, z których kopiujemy własności,
czyli jeśli zmienna, do której dodajemy etykiety ma już etykiety, to zostaną
one zastąpione. Druga z opcji powoduje nadanie etykiet tylko tym wartościom
zmiennej przejmującej własności, które takich etykiet są pozbawione. Jeśli jednak zmienna ma dla danej wartości etykiety, to nie zostaną one zastąpione –
pozostaną etykiety pierwotne tej zmiennej. Opcja ta jest wykorzystywana do
uzupełniania brakujących etykiet.
Kolejny krok kreatora dotyczy przejmowania własności pomiędzy zbiorami
danych (rys. 4.10).
Spośród własności zbioru danych możemy kopiować:
Zestawy wielokrotnych odpowiedzi – opcja ta jest związana z wykorzystaniem de-
finicji zestawów zmiennych reprezentujących pytania z możliwością wyboru
wielu odpowiedzi, budowanych w ramach modułu SPSS Tables;
Zestawy zmiennych – ta opcja dotyczy zestawów zmiennych zadeklarowanych
poprzez wybranie z menu Narzędzia opcji Definiuj zestawy. Tak zdefiniowane
zestawy są wykorzystywane do ograniczania liczby zmiennych prezentowanych w oknach dialogowych do tych, które zostały zawarte w wybranych
zestawach – zestawem zmiennych mogą być np. zmienne metryczkowe.
Dokumenty – są to komentarze odnoszące się do całego pliku danych dodane
uprzednio przez użytkownika, po wybraniu z menu Narzędzia opcji Komentarze
do danych.
36
Podstawowe operacje na plikach danych
Rysunek 4.10. Wybór kopiowanych własności pliku danych
Każda z wymienionych własności ma podopcje Zamień i Połącz. Analogicznie jak
w przypadku etykiet wartości, pierwsza z opcji nadpisuje istniejące własności
w pliku roboczym, natomiast druga uzupełnia istniejące własności o te z pliku
słownikowego.
Dodatkowo w tym oknie można wybrać jeszcze dwie własności:
Specyfikacja ważenia – powoduje automatyczne wskazanie zmiennej ważącej
w pliku roboczym w oparciu o jej definicję w pliku słownikowym (zmienna
o tej samej nazwie powinna znajdować się w pliku roboczym).
Opis pliku – jest to krótka etykieta pliku danych (max. 60 znaków), definiowana za pomocą polecenia FILE LABELS.
Ostatnie okno kreatora jest pytaniem o to, czy wykonać zdefiniowane za jego
pomocą czynności, czy też wkleić je do okna języka poleceń.
37
Wprowadzenie do pracy z programem SPSS for Windows
4.4.
Wczytywanie i zapisywanie zbioru danych
Zbiór danych wczytujemy do SPSS for Windows wybierając z menu Plik opcje
Otwórz a następnie Dane. Za pomocą tego polecenia możemy wczytywać zbiory
zapisane w następujących formatach:
SPSS for Windows (*.sav ) – plik danych SPSS for Windows;
SPSS/PC+ (*.sys) – plik danych SPSS for DOS;
SYSTAT (*.syd ) – pliki programu statystycznego SYSTAT;
SYSTAT (*.sys) – pliki programu statystycznego SYSTAT (starsza wersja
plików);
SPSS Portable (*.por ) – plik danych SPSS w formacie transportowym;
Excel (*.xls) – plik arkusza kalkulacyjnego Microsoft Excel do wersji 4 włącznie;
Lotus (*.w *) – plik arkusza kalkulacyjnego Lotus Notes do wersji 3 włącznie;
SYLK (*.slk ) – format plików zawierających łącza symboliczne, wykorzystywany przez niektóre arkusze kalkulacyjne;
dBase (*.dbf ) – pliki danych dla baz danych w formacie dBase;
SAS Long File Name (*.sas7bdat ) – plik programu SAS od wersji 7 z długimi
rozszerzeniami;
SAS Short File Name (*.sd7 ) – plik programu SAS od wersji 7 z krótkimi
rozszerzeniami;
SAS v6 for Windows (*.sd2 ) – pliki programu SAS do wersji 6.08 dla Windows i OS2;
SAS v6 for UNIX (*.ssd01 ) – wersja 6 programu SAS dla UNIX;
SAS Transport (*.xpt ) – pliki transportowe programu SAS;
Pliki tekstowe (*.txt ) lub (*.dat ) – pliki tekstowe w różnych formatach.
Dodatkowo szereg rzadziej wykorzystywanych opcji wczytywania różnych postaci plików danych dostępny jest z poziomu języka poleceń.
Po wywołaniu opcji Otwórz na ekranie otwiera się okno dialogowe Otwórz plik
danych. W oknie tym ustalamy typ i nazwę zbioru.
W przypadku plików w formacie danych SPSS (*.sav ) przed otwarciem pliku
można sprawdzić jego zawartość za pomocą polecenia Plik zewnętrzny, wybierając z menu Plik opcję Pokaż opis pliku. Informacja o pliku wyświetlana jest
w oknie raportu.
38
Podstawowe operacje na plikach danych
Zbiór danych zapisujemy w formacie SPSS for Windows pod obecną nazwą
poleceniem Zapisz. Jeśli chcemy zmienić nazwę zbioru lub zapisać dane w innym
formacie używamy polecenia Zapisz jako.
Proste zbiory tekstowe (ASCII) wczytujemy do programu poleceniem Czytaj
dane tekstowe z menu Plik. Wybranie tej opcji uruchamia kreator pobierania
plików tekstowych.
Po wskazaniu ścieżki dostępu do pliku tekstowego uruchamia się pierwsze okno
kreatora z podglądem zawartości wczytywanego pliku oraz z pytaniem, czy
użytkownik chce wskazać predefiniowany format takiego pliku (rys. 4.11).
wybór pliku
opisującego strukturę
danych tekstowych
Rysunek 4.11. Pytanie o plik z predefiniowanym formatem danych
Jeśli plik o określonej strukturze był już kiedyś pobierany za pomocą kreatora
i definicja jego struktury została zapisana do pliku szablonu (*.tpf ), to możemy
się do niej odwołać. Wykorzystanie takiego pliku zwalnia nas z konieczności
przechodzenia przez kolejne kroki kreatora. Jeśli nie mamy takiego szablonu,
musimy przejść do kolejnego kroku kreatora.
W drugim kroku definiujemy format wczytywanego pliku (rys. 4.12).
39
Wprowadzenie do pracy z programem SPSS for Windows
deklaracja rodzaju
pliku tekstowego
deklaracja wiersza
z nazwami zmiennych
Rysunek 4.12. Wybór typu pliku tekstowego
pomijanie wierszy
na początku pliku
deklaracja liczby
obserwacji w wierszu
pobieranie próby
bądź wszystkich danych
Rysunek 4.13. Definicja sposobu i zakresu pobieranych danych
40
Podstawowe operacje na plikach danych
Zbiory tekstowe mogą mieć format:
Separowane – wartości zmiennych są zapisywane w tej samej kolejności i od-
dzielone separatorem (np. przecinek, spacja itp.);
O stałej szerokości – wartości zmiennych zapisywane są w kolumnach danych
o stałej szerokości.
Na tym etapie deklarujemy także, czy w pierwszym wierszu pliku tekstowego
znajdują się nazwy zmiennych.
Trzeci krok kreatora (rys. 4.13) umożliwia bardziej szczegółową definicję sposobu czytania tego pliku. Możemy w nim określić, od którego wiersza ma
się rozpocząć czytanie danych – w opcji Pierwsza obserwacja danych rozpoczyna się
w wierszu podajemy numer wiersza.
Możemy zadeklarować też, czy jeden wiersz zajmuje jedną obserwacje, czy też
np. w jednym wierszu zostało zapisane w pliku tekstowym kilka obserwacji
– w drugim przypadku w opcji Obserwacje reprezentuje określona liczba zmiennych
podajemy liczbę zmiennych dla jednej obserwacji.
Jeśli zamiast pliku separowanego w poprzednim oknie wybraliśmy format kolumnowy, to zamiast tej opcji pojawi się opcja Liczba wierszy reprezentujących jedną
obserwację. Opcja ta pozwala kilka wierszy pliku tekstowego traktować jako jedną obserwację.
W tym kroku możemy też zdecydować czy chcemy wczytać wszystkie obserwacje (Ile obserwacji zamierzasz zaimportować?), czy też np. pierwszych N obserwacji,
lub wylosować w przybliżeniu jakiś ich procent.
Czwarty krok kreatora jest inny dla plików separowanych (rys. 4.14) i inny dla
plików w formacie kolumnowym.
Dla plików w formacie separowanym jest to pytanie o rodzaj separatora zmiennych (Jakie separtory pojawiają się pomiędzy zmiennymi?), np. przecinek, średnik, tabulacja oraz o to, w obrębie jakiej pary znaków podane są wartości zmiennych
tekstowych (Jaki jest kwalifikator tekstu? – apostrofów, cudzysłowów, czy innych
zadeklarowanych przez użytkownika znaków).
Dla plików w formacie kolumnowym musimy za pomocą myszy wskazać, w której kolumnie kończą się wartości dla jednej zmiennej i zaczynają dla drugiej.
41
Wprowadzenie do pracy z programem SPSS for Windows
deklaracja sposobu
separowania
ciągu znaków
wartości tekstowej
rodzaje separatora
wartości
Rysunek 4.14. Definicja operatora zmiennych w pliku separowanym
W kroku piątym możemy zmienić nazwy i format zmiennych na etapie ich
wczytywania do Edytora danych SPSS (rys. 4.15).
deklaracja formatu
Rysunek 4.15. Definicja nazw i formatów zmiennych
42
Podstawowe operacje na plikach danych
Ostatni, szósty krok, pozwala na zapisanie definicji utworzonych w poprzednich
krokach do postaci pliku szablonu (*.tpf ) na potrzeby późniejszego wykorzystania (rys. 4.16). Możemy też podjąć decyzję o wykonaniu pobierania pliku
(Naciśnij przycisk Zakończ, aby zakończyć działanie kreatora) lub zapisu do okna języka
poleceń (Czy wkleić składnię polecenia do okna Edytora poleceń?), w celu dokumentacji
lub późniejszego wykonania zestawu instrukcji.
zapis pliku opisującego
strukturę danych
tekstowych
wykonanie lub wklejenie
do okna języka poleceń
zaczytanie danych
do pamięci
Rysunek 4.16. Tworzenie pliku szablonu definicji oraz buforowanie danych
W kroku tym możemy też wybrać opcję Buforuj dane lokalnie. Jej włączenie spowoduje utworzenie kopii pliku danych w pamięci wirtualnej, co poprawi szybkość dalszych analiz prowadzonych na tym pliku.
Pozostawienie tej opcji wyłączonej skutkuje czymś w rodzaju otwarcia powiązania z tym plikiem, ale bez jego pełnego wczytania. W efekcie każda analiza
będzie pobierała od początku dane z pliku tekstowego. Przykładowo, jeśli między dwoma analizami (np. dwukrotne liczenie średniej dla tej samej zmiennej)
przybędzie obserwacji w pliku tekstowym, to nowsza analiza będzie prowadzona na powiększonym pliku danych.
43
Wprowadzenie do pracy z programem SPSS for Windows
Jak widać, wczytywanie danych w formacie tekstowym jest bardziej złożone niż w przypadku otwierania plików danych z innych formatów i wymaga
dokładnej znajomości struktury pliku danych. Niemniej umiejętność wczytywania plików z formatu tekstowego może być niezbędna w sytuacji, gdy mamy
do czynienia z systemami baz danych stworzonymi wiele lat temu, czy też niekiedy w przypadku korzystania z systemów baz danych osadzonych na innych
platformach systemowych. Do dziś w wielu instytucjach korzysta się z plików
tekstowych jako standardu archiwizacji danych. Wykorzystując język poleceń
programu SPSS można wczytywać pliki tekstowe nawet o dużo bardziej złożonej strukturze.
4.5.
Współpraca z relacyjnymi bazami danych
i arkuszami kalkulacyjnymi
z wykorzystaniem ODBC
Pakiet SPSS for Windows może korzystać z danych zawartych w relacyjnych bazach danych i arkuszach kalkulacyjnych. Dotyczy to zdecydowanej większości
współcześnie tworzonych aplikacji bazodanowych. SPSS umożliwia jednoczesny
dostęp do wielu tabel takich aplikacji jak: Access, Paradox, Oracle, MS SQL,
DB2, Sybase, Progress, Informix itp.
Warunkiem koniecznym bezpośredniego pobrania danych do SPSS jest posiadanie sterowników ODBC do danego typu bazy danych. Wraz z programem
SPSS dostarczany jest pakiet sterowników do wszystkich wymienionych powyżej baz danych. Można też skorzystać z narzędzi dostępowych oferowanych
przez producenta danej bazy danych. Mechanizm ODBC może zostać także
wykorzystany do pobierania danych z arkuszy kalkulacyjnych.
Aby wczytać bazę danych przechodzimy do menu Plik i wybieramy opcję Przejmij bazę danych. Wybranie opcji Nowa kwerenda spowoduje uruchomienie Kreatora
przejmowania baz danych. W pierwszym kroku pojawia się pytanie o źródło danych
(rys. 4.17).
Należy wówczas z listy dostępnych źródeł danych wybrać właściwe, np. Sprzedaż . Jeżeli na liście nie ma właściwej pozycji, należy ją dodać, wciskając przycisk Dodaj źródło danych.
44
Podstawowe operacje na plikach danych
lista
zdefiniowanych
źródeł
danych
Rysunek 4.17. Kreator przejmowania baz danych – źródła danych
Jako źródło danych możemy zdefiniować nie tylko typ bazy, ale także konkretny
plik danego typu. Jeśli nie zrobimy przypisania do konkretnej bazy danych
jako źródła, pojawi się wtedy okno dialogowe pozwalające na wskazanie ścieżki
dostępu do konkretnego pliku.
Jeśli na bazę danych zostały nałożone przez administratora ograniczenia dostępu, to w następnej kolejności pojawi się okno dialogowe z pytaniem o:
nazwę użytkownika – Login;
hasło – Password;
nazwę serwera – Server.
W drugim kroku wybieramy całe tabele lub wybrane zmienne, które chcemy
wczytać do SPSS (rys. 4.18).
Okno dialogowe podzielone jest na dwie części – po lewej znajduje się lista dostępnych tabel i zmiennych, po prawej lista zmiennych, które zostaną pobrane
do SPSS.
45
Wprowadzenie do pracy z programem SPSS for Windows
tabele
w źródłowej bazie
danych
zmienne
w źródłowej bazie
danych
Rysunek 4.18. Kreator przejmowania baz danych – pobieranie zmiennych
Aby przenieść tabelę wystarczy ją zaznaczyć i przeciągnąć do pola po prawej
stronie okna, przy wciśniętym lewym przycisku myszy.
Podobnie można przenieść tylko wybrane zmienne. Aby uzyskać dostęp do
zmiennych, należy w polu po lewej stronie nacisnąć na znak plus obok nazwy
tabeli, w której znajduje się dana zmienna. Po wskazaniu zmiennych, które
chcemy wczytać do SPSS, należy nacisnąć przycisk Dalej.
W kroku trzecim definiujemy relacje między tabelami (rys. 4.19).
Wybranie opcji Automatyczne sprzęganie tabel spowoduje automatyczne połączenie tabel na bazie odpowiadających sobie zmiennych w różnych tabelach.
Można także zdefiniować powiązanie między tabelami samodzielnie, przeciągając (przy wciśniętym lewym przycisku myszy) zmienną z jednej tabeli na
odpowiadającą jej zmienną w drugiej tabeli.
46
Podstawowe operacje na plikach danych
przyciski
definiowania
relacji
Rysunek 4.19. Kreator przejmowania baz danych – ustalanie relacji między tabelami
Korzystając ze znajdujących się w oknie po prawej stronie przycisków można
ustalić typ relacji jako:
Sprzężenie wewnętrzne – wybiera tylko odpowiadające sobie rekordy z tabel;
Lewe lub Prawe sprzężenie zewnętrzne – wybiera wszystkie rekordy z tabeli, od
której wychodzi strzałka i odpowiadające rekordy z tabeli, do której dochodzi strzałka.
Różnica pomiędzy Lewym sprzężeniem zewnętrznym i Prawym sprzężeniem zewnętrznym
sprowadza się do wskazania, z której z dwóch połączonych tabel mają być
wczytane wszystkie obserwacje.
Kolejny krok umożliwia definiowanie warunków wczytywania obserwacji
(rys. 4.20).
47
Wprowadzenie do pracy z programem SPSS for Windows
włączenie
opcji
losowania
próby
lista funkcji, z których można skorzystać przy nakładaniu warunków pobierania danych
tworzenie okna dialogowego z zapytaniem o wartość parametru
Rysunek 4.20. Kreator przejmowania baz danych – nakładanie warunków pobierania
danych
Można więc wczytywać obserwacje spełniające określony warunek, np. kwota
sprzedaży wyższa od 1000,- PLN, data sprzedaży zawiera się w przedziale pomiędzy styczniem a grudniem 1998 itp. Jeśli więc chcemy wczytać dane pod
warunkiem, że kwota sprzedaży jest większa niż 1000,- PLN, to w polu Wyrażenie 1 wpisujemy nazwę zmiennej kwota (lub wybieramy z listy rozwijanej),
w polu Relacja wybieramy lub wpisujemy operator >, a w polu Wyrażenie 2 –
wartość 1000.
Na tym etapie można też zdefiniować pytania o wartości, które będą wyświetlane
przy uruchomieniu kwerendy. Na przykład, jeśli tworzymy kwerendę do bazy
danych sprzedaży, z której będziemy korzystać wielokrotnie, ale chcemy mieć
możliwość za każdym razem wybrania innego miesiąca, dla którego zostaną
wczytane dane, to skorzystanie z opcji Pytanie o wartość pozwoli nam zdefiniować
okno dialogowe z pytaniem, dla jakiego miesiąca dane mają być pobrane.
48
Podstawowe operacje na plikach danych
W ramach tego okna można także dokonać losowania próby. Po wybraniu opcji
Zastosuj losowanie próby aktywują się dwie opcje kluczowe: SPSS wylosuje próbę
oraz Losowanie próby w bazie danych. Druga z opcji jest aktywna tylko wtedy, gdy
źródłowa baza danych obsługuje losowanie prób. Jeśli opcja ta jest aktywna,
to zazwyczaj szybsze jest losowanie z jej wykorzystaniem, gdyż w przypadku pierwszej opcji konieczne jest pobranie całości danych do programu SPSS,
a następnie dokonanie losowania z użyciem jego algorytmów.
W przypadku losowania próby w bazie danych, SPSS wydaje tylko polecenie
SQL bazie danych. Dodatkowo pozwala to wykorzystać do tego zadania moc
obliczeniową serwera bazy danych, jeśli jest on zainstalowany na lepszym komputerze niż SPSS. Po wybraniu programu, który ma dokonać losowania możemy zdecydować, czy chcemy wylosować określony procent obserwacji (w przybliżeniu), czy dokładnie określoną liczbę obserwacji, np. pierwszych 100 tys.
obserwacji.
W kroku piątym możemy zmienić nazwy pobieranych zmiennych (rys. 4.21).
włączenie
opcji
automatycznego
rekodowania
nazwa
zmiennej;
w SPSS
możliwa
jest jej
edycja
w tym
polu
Rysunek 4.21. Kreator przejmowania baz danych – zmiana nazw kolumn
49
Wprowadzenie do pracy z programem SPSS for Windows
W oknie dialogowym po lewej stronie znajdują się nazwy tabel i zmiennych
w źródłowej bazie danych. W prawej części okna znajdują się nazwy, jakie zostaną nadane zmiennym po wczytaniu ich do programu SPSS (Nazwa zmiennej).
W oknie tym można też zdecydować o konwersji zmiennej przyjmującej w bazie danych wartości tekstowe na wartości numeryczne. Konwersji dokonuje się
poprzez zaznaczenie kwadratu dla danej zmiennej w kolumnie Etykiety.
W wyniku konwersji zmiennej kraj przyjmującej wartości Albania, Bułgaria
itp. otrzymamy zmienną kraj , przyjmującą wartość 1 dla Albanii i 2 dla Bułgarii, natomiast wartości tekstowe posłużą do automatycznego stworzenia etykiet
dla tych zmiennych, czyli wartość 1 będzie miała etykietę Albania, a wartość 2
– Bułgaria. Dokonanie takiej transformacji zapewni później szybsze operacje
na danych w obrębie programu SPSS, niż w sytuacji, gdy pozostawimy taką
zmienną jako zmienną tekstową.
Ostatni, szósty krok, pozwala na zapisanie kwerendy w postaci komend w oknie
języka poleceń SPSS jako zapytania SQL, lub jako pliku (rys. 4.22).
kod SQL
wykonanie
lub
wklejenie
do okna
języka
poleceń
Rysunek 4.22. Kreator przejmowania baz danych – kwerenda w postaci SQL
50
Podstawowe operacje na plikach danych
Z zapisanej kwerendy możemy skorzystać, wybierając z menu Plik opcję Przejmij
bazę danych, a następnie opcję Uruchom kwerendę. W kroku tym możemy też wybrać opcję Buforuj dane lokalnie. Jej włączenie spowoduje utworzenie kopii pliku
danych w pamięci wirtualnej. Wybranie tej opcji poprawia szybkość dalszych
analiz prowadzonych na tym pliku. Pozostawienie tej opcji wyłączonej skutkuje
otwarciem powiązania z tym plikiem, ale bez jego pełnego wczytania.
51
Download