Podstawowe operacje na plikach danych Standardowo w menu edytora danych znajdują się następujące polecenia: Plik – operacje na plikach danych, wczytywanie i zapisywanie danych; Edycja – kopiowanie, wklejanie itp.; Widok – zarządzanie paskami narzędzi i stanu; Dane – operacje na danych; Przekształcenia – operacje na zmiennych; Analiza – analizy statystyczne i raportowanie; Wykresy – tworzenie wykresów; Narzędzia – informacje o zmiennych, konfigurowanie rozwijanego menu; Okno – przechodzenie między oknami, zmiana atrybutów okien; Pomoc – uzyskiwanie pomocy. W Edytorze danych SPSS można pracować podobnie jak w arkuszach kalkulacyjnych – bezpośrednio usuwać, czy też wpisywać dane do komórek bazy danych. Ten styl pracy nie jest jednak godny polecenia w przypadku pracy na dużych zbiorach danych, gdyż dokonywane w ten sposób zmiany nie są w żaden sposób dokumentowane. Lepszym rozwiązaniem jest korzystanie z dostępnych w SPSS poleceń pozwalających na przekształcanie danych. Pracując w ten sposób, zawsze mamy możliwość prześledzenia historii zmian dokonywanych w bazie danych (śledząc komendy w oknie języka poleceń SPSS). Jeśli jednak zdecydujemy się na pracę z danymi poprzez bezpośrednie usuwanie, wycinanie i wklejanie komórek, warto wcześniej utworzyć kopię pliku z danymi. Ostrożności nigdy nie za wiele, dlatego w trakcie pracy z plikami danych należy zwracać szczególną uwagę na komunikaty programu z ostrzeżeniami dotyczącymi konsekwencji przeprowadzanych przez nas operacji. 23 Wprowadzenie do pracy z programem SPSS for Windows 4.1. Struktura zbiorów danych Dane analizowane za pomocą pakietu SPSS for Windows zorganizowane są w zmienne i obserwacje. Zmienne są odpowiednikiem cechy statystycznej (np. wiek, płeć itp.) i ich własności są przedmiotem analiz wykonywanych za pomocą pakietu SPSS for Windows; każda obserwacja to pojedynczy badany obiekt (respondent, faktura, wynik eksperymentu, itp.). Struktura danych jest podobna do struktury danych arkuszy kalkulacyjnych (np. MS Excel, Lotus 1-2-3). Na zawartość edytora danych składają się dwa główne elementy: dane „właściwe” i dane słownikowe opisujące ich znaczenie, formaty prezentacji wartości itp. Definicje danych słownikowych dla zmiennych można ustawić przechodząc do zakładki Zmienne znajdującej się w lewym dolnym rogu okna Edytora danych lub wybierając z menu Widok opcję Zmienne (rys. 4.1). W zakładce Zmienne znajduje się tabelaryczny edytor definicji zmiennych. Liczba wierszy w edytorze odpowiada liczbie zmiennych w zbiorze danych. W kolumnach znajdują się definicje poszczególnych ustawień dla zmiennych: Nazwa – nazwy zmiennych; Typ – typ zmiennej (np. numeryczny, tekstowy, data); Szerokość – liczba znaków dla zmiennej; Dziesiętne – dopuszczalna liczba miejsc po przecinku; Etykieta – długi opis zmiennej (np. „Kraj odbiorcy”); Wartości – etykiety dla wartości (np. 1 – „Polska”); Braki danych – wartości, poprzez które określane są braki danych; Kolumny – szerokość kolumny dla wybranej zmiennej w Edytorze danych; Wyrównanie – sposób wyrównania wartości wyświetlanych w Edytorze danych (do prawej, do lewej, wyśrodkuj); Poziom – poziom pomiaru zmiennej. Nazwy zmiennych mogą składać się maksymalnie z 64 znaków (dopiero od wersji 12 programu SPSS), mogą zawierać wszystkie znaki oprócz znaków specjalnych (np. ∗) i muszą rozpoczynać się od litery. W zbiorze nie mogą występować zmienne o tych samych nazwach. 24 Podstawowe operacje na plikach danych zakładka „zmienne”, zawierająca definicje informacji słownikowych Rysunek 4.1. Okno edytora definicji zmiennych Jako nazw zmiennych nie można używać zastrzeżonych słów: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH. Duże i małe litery nie są rozróżniane w nazwach zmiennych, tzn. nazwy zmiennych nAzWa1 i nazwa1 są dla SPSS identyczne. Nazwy zmiennych nie mogą kończyć się kropką. W SPSS for Windows można definiować zmienne różnego typu: Numeryczny – są to liczby, np. 100.86 lub 1 000 000 – znak oddzielający część dziesiętną zależy od konfiguracji systemu Windows; Przecinkowy – są to liczby w formacie numerycznym, w którym przecinkami oddzielone są kolejne potęgi tysiąca, a kropka oddziela części dziesiętne, np. 100.86 lub 1,000,000.15; Z kropką – części dziesiętne zapisywane są po przecinku, a tysiące po kropce, np. 100,86 lub 1.000.000,15; Notacja naukowa – liczby w postaci xEy = x · 10y, np. 1.0086E2 lub 1e + 6 (zamiast litery E możemy mieć D lub znak wykładnika y); 25 Wprowadzenie do pracy z programem SPSS for Windows Data i czas – zmienne zawierające daty lub czas; Dolar – format zapisu waluty USD, np. $100,86; Format użytkownika – formaty liczbowe zdefiniowane przez użytkownika, np. waluty; Tekstowy – zmienne tekstowe. SPSS pozwala na zadeklarowanie wielu dodatkowych, rzadziej używanych for- matów zmiennych z poziomu języka poleceń. Zmiennym możemy przypisywać etykiety (Etykieta zmiennej) o długości do 256 znaków. Etykietą taką może być np. treść pytania, opis zmiennej, jej pełna nazwa itp. W wynikach analiz zamiast nazw zmiennych wykorzystywane są etykiety, co w efekcie powoduje, że otrzymujemy raport gotowy do zaprezentowania innym osobom. Jeżeli jednak użytkownik woli używać w raportach nazw zmiennych, może zmienić ustawienia domyślne programu dotyczące sposobu raportowania. Także każdej wartości zmiennej (zwykle jakościowej) możemy przypisać etykietę (Etykieta wartości). Etykieta wartości może składać się z 60 znaków. Etykiety przypisujemy i modyfikujemy w oknie dialogowym Etykiety wartości. Okno to wywołujemy po kliknięciu na komórkę w kolumnie Wartości dla wybranej zmiennej, wybierając widoczny w prawym rogu tej komórki kwadracik. W praktyce często zdarza się, że jakaś informacja nie jest dostępna lub nie ma zastosowania (np. jeśli firma nie działała w styczniu, to nie poda informacji o przychodach w tym miesiącu). Sytuacji takiej w zbiorze danych odpowiadają brakujące obserwacje. W zbiorze danych są one reprezentowane przez pustą wartość – brak danych. Wartość ta nie jest brana pod uwagę w większości analiz (np. przy obliczaniu średniej). W SPSS for Windows występują dwa rodzaje braków danych: Systemowe braki danych – są to wartości automatycznie przypisywane przez SPSS for Windows pustym komórkom w zbiorze danych. W edytorze danych komórki takie są oznaczane przez kropkę. Zdefiniowane braki danych – są to wartości wskazane przez użytkownika jako kody brakujących wartości. Zdefiniowane braki danych umożliwiają rozróżnianie przyczyn powodujących brak informacji. Mogą one być: dyskretne, np. 1 – „brak odpowiedzi”, 2 – „nie wiem”; należeć do pewnego przedziału, np. (−1, 9999); 26 Podstawowe operacje na plikach danych przybierać jedną wartość i należeć do pewnego przedziału, np. brakiem danych jest obserwacja, jeżeli jej wartość należy do przedziału (−1, −9999) lub jest równa 1000. Braki danych można definiować wybierając w kolumnie Braki danych komórkę reprezentującą wybraną zmienną. SPSS pozwala także na określenie skali pomiarowej dla każdej ze zmiennych. I tak, w kolumnie Poziom możemy zadeklarować Ilościowy, Porządkowy lub Nominalny poziom pomiarowy zmiennej. W niektórych procedurach analitycznych i wykresach ustawienia te mogą mieć wpływ na sposób traktowania zmiennej w analizach i prezentacji zmiennej na wykresach. Obok zmiennych definiowanych przez użytkownika istnieją także zmienne systemowe, np. zmienna numerująca obserwacje ($casenum), czy zmienna typu data. Zmienne te możemy wykorzystywać w obrębie języka poleceń programu SPSS oraz w przekształceniach realizowanych z użyciem interfejsu graficznego. W zbiorze danych oprócz wartości zmiennych przechowywany jest również słownik zawierający definicje wszystkich zmiennych i dodatkowe informacje dotyczące danych, dlatego raz zdefiniowane etykiety, typ i kody braków danych będą pojawiać się przy każdej następnej sesji pracy z tym plikiem danych. Pełny opis zbioru danych możemy uzyskać za pomocą polecenia Pokaż opis pliku z menu Plik. Informacje o pliku wypisywane są w oknie edytora raportów. Opis poszczególnych zmiennych uzyskujemy wykorzystując opcje Zmienne z menu Narzędzia (rys. 4.2). przechodzi do wybranej zmiennej w oknie edytora danych wkleja nazwę wybranej zmiennej do okna języka poleceń Rysunek 4.2. Informacja o zmiennych 27 Wprowadzenie do pracy z programem SPSS for Windows 4.2. Edytor danych Edytor danych pakietu SPSS for Windows umożliwia pracę z danymi w sposób analogiczny do arkusza kalkulacyjnego. Obserwacjom w edytorze danych odpowiadają wiersze, a zmiennym – kolumny. W komórkach edytora danych znajdują się wartości zmiennych dla określonych obserwacji (rys. 4.3). wiersz = obserwacja, np. respondent kolumna = zmienna, np. sex Rysunek 4.3. Edytor danych Między komórkami możemy poruszać się za pomocą myszy, klikając na komórkę, do której chcemy przejść. Możemy także wykorzystywać w tym celu klawisze kursorów. Aktywna komórka jest okolona przez pogrubione linie, a jej zawartość jest wyświetlana w górnym polu okna edytora danych zwanym edytorem komórki. Po wybraniu komórki wpisujemy do niej wartość zmiennej 28 Podstawowe operacje na plikach danych i naciskamy Enter lub wskazujemy kursorem inną komórkę arkusza danych. Jeśli wprowadzana wartość zmiennej nie jest zgodna ze zdefiniowanym typem zmiennej, to błędna wartość nie zostanie wprowadzona. W powyższy sposób możemy zastępować istniejące wartości zmiennych. Jeśli zawartość komórki chcemy zmodyfikować (np. dopisać jedną cyfrę do wpisanej wcześniej liczby), to po wskazaniu komórki klikamy myszą na pole edytora komórki lub wciskamy klawisz F2. Edytor danych umożliwia kopiowanie, wycinanie i wstawianie fragmentów arkusza danych (bloków). Jeśli chcemy wykonać jakąś operację na bloku – zaznaczamy go. Aby zaznaczyć blok, przesuwamy wskaźnik myszy po przekątnej zaznaczanego bloku, jednocześnie przyciskając lewy klawisz myszy. Fragment arkusza możemy także zaznaczać za pomocą klawiatury, naciskając Shift+klawisz kursora (lub inny klawisz nawigacyjny, np. PageUp). Pojedynczą zmienną zaznaczamy naciskając Ctrl+Spacja, a pojedynczą obserwację – naciskając Shift+Spacja. Zaznaczony blok możemy kopiować do schowka naciskając Ctrl+C (Edycja/Kopiuj), wycinać Ctrl+X (Edycja/Wytnij) oraz usuwać (Del). Znajdujący się w schowku blok możemy umieścić w arkuszu danych Ctrl+V (Edycja/Wklej). Przed wstawieniem bloku do arkusza zaznaczamy obszar, w który ma on być wstawiony. Jeśli typ zmiennych w tym obszarze różni się od typu zmiennych w kopiowanym bloku, zostanie dokonana automatyczna konwersja. Operacje kopiowania, wycinania, usuwania i wklejania możemy przeprowadzić także przy użyciu prawego przycisku myszy. Wprowadzenie dowolnej wartości do komórki lub wiersza poza zakresem (poniżej) istniejących obserwacji powoduje automatyczne dodanie nowej obserwacji do zbioru. Jeśli chcemy wstawić nową obserwację między istniejące obserwacje, to z menu Dane wybieramy polecenie Wstaw obserwację. Nowe zmienne wstawiamy poleceniem Wstaw zmienną z menu Dane. Powyższe operacje można także wykonać za pomocą prawego przycisku myszy, klikając na numer wiersza, przed którym chcemy wstawić obserwacje i wybierając Wstaw obserwację. Aby wstawić nową zmienną postępujemy podobnie. Klikamy na nazwę zmiennej, przed którą chcemy wstawić nową zmienną i wybieramy opcję Wstaw zmienną. Zmienne i obserwacje usuwamy po zaznaczeniu odpowiadających im kolumn lub wierszy i wydaniu polecenia Usuń z menu Edycja lub korzystając z prawego przycisku myszy. 29 Wprowadzenie do pracy z programem SPSS for Windows Do wybranej obserwacji przechodzimy za pomocą polecenia Przejdź do z menu Dane (rys. 4.4). Natomiast do kolumny odpowiadającej wybranej zmiennej przechodzimy wybierając opcję Zmienne z menu Narzędzia. Następnie w oknie dialogowym zaznaczamy nazwę zmiennej na liście i naciskamy przycisk Przejdź do. Rysunek 4.4. Przeszukiwanie danych Jeśli analizy wykonywane są dla podgrupy obserwacji, to numery obserwacji nieuwzględnianych w analizach są przekreślone. W edytorze danych zamiast wartości zmiennych możemy wyświetlać przypisane wartościom etykiety. Etykiety będą wyświetlane w edytorze danych jeśli z menu Widok wybierzemy Etykiety wartości. Do arkusza danych możemy wprowadzać etykiety zamiast wartości zmiennych. W tym celu po wybraniu komórki klikamy na kwadracik z prawej strony wybranej komórki, a następnie z listy wybieramy żądaną etykietę. Taki tryb wprowadzania działa wyłącznie wtedy, gdy w menu Widok wybrana została opcja Etykiety wartości. 4.3. Tworzenie nowego zbioru danych Nowy zbiór danych tworzymy wybierając z menu Plik opcję Nowy, a następnie Dane. Kolejnym krokiem jest zdefiniowanie zmiennych, które będą występowały w zbiorze danych. Zmienne definiujemy po przejściu do zakładki Zmienne w lewym dolnym rogu Edytora danych. W oknie edytora definicji zmiennych wpisujemy nazwę zmiennej, typ i inne parametry opisane w rozdziale „Struktura danych”. Dane mogą być wprowadzane do programu SPSS analogicznie jak w przypadku arkuszy kalkulacyjnych lub pobierane z pliku zewnętrznego. W przypadku wprowadzania danych bezpośrednio do okna edytora danych programu SPSS warto pamiętać, iż istnieją też inne możliwości wprowadzania danych, np. za pomocą SPSS Data Entry. 30 Podstawowe operacje na plikach danych Przy definiowaniu i tworzeniu wielu zmiennych wygodnie jest korzystać z kreatorów ułatwiających definiowanie właściwości i ich kopiowanie pomiędzy zmiennymi. Kreatory te dostępne są w menu Dane. Pierwszy z nich uruchamiany jest po wybraniu z menu Dane opcji Definiuj zmienne. Kreator ten jest szczególnie użyteczny w sytuacji, gdy dane do programu SPSS wczytaliśmy z zewnętrznej aplikacji, a chcemy dokonać zmian formatów, dopisać etykiety itp. Pierwsze okno kreatora definicji zmiennych pyta o listę zmiennych, dla których chcemy dokonać definicji różnych własności (rys. 4.5). lista opisywanych zmiennych zawężenie zakresu skanowanych obserwacji zawężenie zakresu wyświetlanych wartości zmiennych Rysunek 4.5. Wybór zmiennych Zmienne te zostaną następnie zeskanowane, tzn. kreator sprawdzi ich rozkład. Ponieważ w przypadku bardzo dużych zbiorów danych procedura skanowania może zająć dużo czasu, możemy ograniczyć proces skanowania do zadanej liczby rekordów (Ogranicz liczbę skanowanych obserwacji do). Ograniczeniu można także poddać liczbę wyświetlanych wartości zmiennych (Ogranicz liczbę wyświetlanych wartości do). Zwiększanie zadeklarowanej w tym oknie domyślnej wartości powoduje zwiększanie obciążenia komputera. Zadeklarowana domyślnie wartość 200 zwykle wystarczy, aby zorientować się co do poziomu pomiaru zmiennej. 31 Wprowadzenie do pracy z programem SPSS for Windows Zmienne, których definicje chcemy zmienić, wybieramy przenosząc je do listy Zmienne do zeskanowania, poprzez kliknięcie na strzałkę pomiędzy listami. W kolejnym oknie kreatora (rys. 4.6) możemy zobaczyć listę wybranych zmiennych z sugerowanym poziomem pomiaru i informacją, czy wartości danej zmiennej posiadają etykiety (kwadrat bez krzyżyka obok poziomu pomiaru zmiennej). informacje o typie i dostępności etykiet definiowanie etykiet wartości, kodów, braków danych definicja poziomu pomiaru definicja etykiet zmiennych definicja typu zmiennej Rysunek 4.6. Definicja własności zmiennych W oknie tym możemy definiować etykiety zmiennych i poziom pomiaru cechy oraz obejrzeć rozkład zeskanowanych wartości. W tabeli etykiet i wartości zmiennej można zaznaczyć, które wartości mają być traktowane jako braki danych. Szczególnie użyteczne są tu opcje pozwalające na automatyczne utworzenie etykiet wartości w oparciu o wartości zmiennej (Wartości bez etykiet) i kopiowanie własności pomiędzy zmiennymi (Skopiuj własności). Po wybraniu właściwych opcji dla poszczególnych zmiennych klikamy OK lub Wklej, jeśli chcemy by własności zdefiniowane w tym oknie zostały wklejone do okna języka poleceń. 32 Podstawowe operacje na plikach danych Innym przydatnym kreatorem jest kreator kopiowania własności, uruchamiany poprzez wybranie z menu Dane opcji Kopiuj własności. Kreator ten to kompleksowe narzędzie do przejmowania informacji słownikowych, takich jak: etykiety, formaty, kodowanie braków danych itp. w obrębie jednego pliku danych lub pomiędzy plikami. Pierwsze okno (rys. 4.7) zawiera pytanie o to, czy kopiowanie własności zmiennych będzie się odbywać pomiędzy plikami danych (Zewnętrzny plik danych SPSS), czy w obrębie jednego pliku danych (Aktualny roboczy plik danych). Rysunek 4.7. Wskazanie źródła danych z informacjami o kopiowanych własnościach Jeśli chcemy kopiować własności z innego pliku danych, wskazujemy ścieżkę dostępu do niego po wybraniu przycisku Przeglądaj. Plik taki można nazwać plikiem słownikowym w stosunku do pliku roboczego. Kolejny krok kreatora, to zdefiniowanie sposobu przejmowania własności pomiędzy zmiennymi (rys. 4.8). Jeśli przejmowanie odbywa się pomiędzy plikami, w tym oknie kreatora aktywne będą wszystkie opcje. 33 Wprowadzenie do pracy z programem SPSS for Windows kopiowanie informacji o pliku danych kopiowanie z wybranej zmiennej porównywanie po nazwie zmiennej Rysunek 4.8. Wskazanie zmiennych źródłowych i docelowych dla kopiowanych własności Pierwsza z nich: Zastosuj właściwości wybranych zmiennych źródłowych do pasujących w pliku roboczym, powoduje porównanie nazw zmiennych pomiędzy zbiorami i pojawienie się na liście Zmienne źródłowe tylko tych zmiennych, których nazwy w obu zbiorach się powtarzają. Opcja ta ma podopcję: Utwórz pasujące zmienne w roboczym pliku danych, jeśli jeszcze tam nie istnieją. Po jej zaznaczeniu na liście Zmienne źródłowe pojawią się wszystkie zmienne z zewnętrznego pliku danych – także te, których nazwy nie są współdzielone pomiędzy plikami. Jeśli następnie na liście tej zaznaczymy wszystkie zmienne, będzie to oznaczało, iż na końcu analizowanego pliku danych zostaną dodane nowe, puste zmienne o nazwach i własnościach przejętych z pliku zewnętrznego. Druga opcja: Zastosuj własności pojedynczej zmiennej źródłowej do wybranych zmiennych tego samego typu, jest aktywna niezależnie od tego, czy własności zmiennych 34 Podstawowe operacje na plikach danych są kopiowane pomiędzy plikami danych, czy w obrębie pojedynczego pliku danych. Pozwala ona na wskazanie dowolnej zmiennej na liście Zmienne źródłowe i dowolnej liczby zmiennych na liście Zmienne pasujące z pliku roboczego. Wybór jest w tym wypadku niezależny od nazwy wybranych zmiennych, tzn. własności można kopiować pomiędzy zmiennymi o dowolnych nazwach. Przykładowo, mając baterię pytań mierzonych na tej samej skali od 1 – „zdecydowanie się zgadzam”, do 5 – „zdecydowanie się nie zgadzam”, wystarczy nadać etykiety pierwszej z nich, a następnie w kreatorze wskazać, iż przejmowanie własności z tej zmiennej ma się odbywać na wszystkie pozostałe cechy mierzone na tej samej skali. Ostatnia opcja: Zastosuj tylko własności zbioru danych – bez wybierania zmiennych, aktywna jest tylko przy kopiowaniu własności pomiędzy plikami danych. Ogranicza ona kopiowanie własności tylko do tych, które dotyczą ogólnie pliku danych, a nie poszczególnych zmiennych. Po wybraniu pomiędzy jakimi zmiennych, czy zbiorami chcemy kopiować własności, przechodzimy do kolejnego okna kreatora (rys. 4.9). Rysunek 4.9. Wybór kopiowanych pomiędzy zmiennymi własności 35 Wprowadzenie do pracy z programem SPSS for Windows Na tym etapie decydujemy o kopiowanych pomiędzy zmiennymi własnościach. Są to: Etykiety wartości, Kody braków danych, Etykieta zmiennej, Poziom pomiaru zmiennych, Formaty zmiennych, Wyrównanie danych w komórkach, Szerokość kolumny danych. Z opcją Etykiety wartości związane są dwie podopcje: Zamień lub Połącz. Pierwsza z nich daje priorytet etykietom ze zmiennych, z których kopiujemy własności, czyli jeśli zmienna, do której dodajemy etykiety ma już etykiety, to zostaną one zastąpione. Druga z opcji powoduje nadanie etykiet tylko tym wartościom zmiennej przejmującej własności, które takich etykiet są pozbawione. Jeśli jednak zmienna ma dla danej wartości etykiety, to nie zostaną one zastąpione – pozostaną etykiety pierwotne tej zmiennej. Opcja ta jest wykorzystywana do uzupełniania brakujących etykiet. Kolejny krok kreatora dotyczy przejmowania własności pomiędzy zbiorami danych (rys. 4.10). Spośród własności zbioru danych możemy kopiować: Zestawy wielokrotnych odpowiedzi – opcja ta jest związana z wykorzystaniem de- finicji zestawów zmiennych reprezentujących pytania z możliwością wyboru wielu odpowiedzi, budowanych w ramach modułu SPSS Tables; Zestawy zmiennych – ta opcja dotyczy zestawów zmiennych zadeklarowanych poprzez wybranie z menu Narzędzia opcji Definiuj zestawy. Tak zdefiniowane zestawy są wykorzystywane do ograniczania liczby zmiennych prezentowanych w oknach dialogowych do tych, które zostały zawarte w wybranych zestawach – zestawem zmiennych mogą być np. zmienne metryczkowe. Dokumenty – są to komentarze odnoszące się do całego pliku danych dodane uprzednio przez użytkownika, po wybraniu z menu Narzędzia opcji Komentarze do danych. 36 Podstawowe operacje na plikach danych Rysunek 4.10. Wybór kopiowanych własności pliku danych Każda z wymienionych własności ma podopcje Zamień i Połącz. Analogicznie jak w przypadku etykiet wartości, pierwsza z opcji nadpisuje istniejące własności w pliku roboczym, natomiast druga uzupełnia istniejące własności o te z pliku słownikowego. Dodatkowo w tym oknie można wybrać jeszcze dwie własności: Specyfikacja ważenia – powoduje automatyczne wskazanie zmiennej ważącej w pliku roboczym w oparciu o jej definicję w pliku słownikowym (zmienna o tej samej nazwie powinna znajdować się w pliku roboczym). Opis pliku – jest to krótka etykieta pliku danych (max. 60 znaków), definiowana za pomocą polecenia FILE LABELS. Ostatnie okno kreatora jest pytaniem o to, czy wykonać zdefiniowane za jego pomocą czynności, czy też wkleić je do okna języka poleceń. 37 Wprowadzenie do pracy z programem SPSS for Windows 4.4. Wczytywanie i zapisywanie zbioru danych Zbiór danych wczytujemy do SPSS for Windows wybierając z menu Plik opcje Otwórz a następnie Dane. Za pomocą tego polecenia możemy wczytywać zbiory zapisane w następujących formatach: SPSS for Windows (*.sav ) – plik danych SPSS for Windows; SPSS/PC+ (*.sys) – plik danych SPSS for DOS; SYSTAT (*.syd ) – pliki programu statystycznego SYSTAT; SYSTAT (*.sys) – pliki programu statystycznego SYSTAT (starsza wersja plików); SPSS Portable (*.por ) – plik danych SPSS w formacie transportowym; Excel (*.xls) – plik arkusza kalkulacyjnego Microsoft Excel do wersji 4 włącznie; Lotus (*.w *) – plik arkusza kalkulacyjnego Lotus Notes do wersji 3 włącznie; SYLK (*.slk ) – format plików zawierających łącza symboliczne, wykorzystywany przez niektóre arkusze kalkulacyjne; dBase (*.dbf ) – pliki danych dla baz danych w formacie dBase; SAS Long File Name (*.sas7bdat ) – plik programu SAS od wersji 7 z długimi rozszerzeniami; SAS Short File Name (*.sd7 ) – plik programu SAS od wersji 7 z krótkimi rozszerzeniami; SAS v6 for Windows (*.sd2 ) – pliki programu SAS do wersji 6.08 dla Windows i OS2; SAS v6 for UNIX (*.ssd01 ) – wersja 6 programu SAS dla UNIX; SAS Transport (*.xpt ) – pliki transportowe programu SAS; Pliki tekstowe (*.txt ) lub (*.dat ) – pliki tekstowe w różnych formatach. Dodatkowo szereg rzadziej wykorzystywanych opcji wczytywania różnych postaci plików danych dostępny jest z poziomu języka poleceń. Po wywołaniu opcji Otwórz na ekranie otwiera się okno dialogowe Otwórz plik danych. W oknie tym ustalamy typ i nazwę zbioru. W przypadku plików w formacie danych SPSS (*.sav ) przed otwarciem pliku można sprawdzić jego zawartość za pomocą polecenia Plik zewnętrzny, wybierając z menu Plik opcję Pokaż opis pliku. Informacja o pliku wyświetlana jest w oknie raportu. 38 Podstawowe operacje na plikach danych Zbiór danych zapisujemy w formacie SPSS for Windows pod obecną nazwą poleceniem Zapisz. Jeśli chcemy zmienić nazwę zbioru lub zapisać dane w innym formacie używamy polecenia Zapisz jako. Proste zbiory tekstowe (ASCII) wczytujemy do programu poleceniem Czytaj dane tekstowe z menu Plik. Wybranie tej opcji uruchamia kreator pobierania plików tekstowych. Po wskazaniu ścieżki dostępu do pliku tekstowego uruchamia się pierwsze okno kreatora z podglądem zawartości wczytywanego pliku oraz z pytaniem, czy użytkownik chce wskazać predefiniowany format takiego pliku (rys. 4.11). wybór pliku opisującego strukturę danych tekstowych Rysunek 4.11. Pytanie o plik z predefiniowanym formatem danych Jeśli plik o określonej strukturze był już kiedyś pobierany za pomocą kreatora i definicja jego struktury została zapisana do pliku szablonu (*.tpf ), to możemy się do niej odwołać. Wykorzystanie takiego pliku zwalnia nas z konieczności przechodzenia przez kolejne kroki kreatora. Jeśli nie mamy takiego szablonu, musimy przejść do kolejnego kroku kreatora. W drugim kroku definiujemy format wczytywanego pliku (rys. 4.12). 39 Wprowadzenie do pracy z programem SPSS for Windows deklaracja rodzaju pliku tekstowego deklaracja wiersza z nazwami zmiennych Rysunek 4.12. Wybór typu pliku tekstowego pomijanie wierszy na początku pliku deklaracja liczby obserwacji w wierszu pobieranie próby bądź wszystkich danych Rysunek 4.13. Definicja sposobu i zakresu pobieranych danych 40 Podstawowe operacje na plikach danych Zbiory tekstowe mogą mieć format: Separowane – wartości zmiennych są zapisywane w tej samej kolejności i od- dzielone separatorem (np. przecinek, spacja itp.); O stałej szerokości – wartości zmiennych zapisywane są w kolumnach danych o stałej szerokości. Na tym etapie deklarujemy także, czy w pierwszym wierszu pliku tekstowego znajdują się nazwy zmiennych. Trzeci krok kreatora (rys. 4.13) umożliwia bardziej szczegółową definicję sposobu czytania tego pliku. Możemy w nim określić, od którego wiersza ma się rozpocząć czytanie danych – w opcji Pierwsza obserwacja danych rozpoczyna się w wierszu podajemy numer wiersza. Możemy zadeklarować też, czy jeden wiersz zajmuje jedną obserwacje, czy też np. w jednym wierszu zostało zapisane w pliku tekstowym kilka obserwacji – w drugim przypadku w opcji Obserwacje reprezentuje określona liczba zmiennych podajemy liczbę zmiennych dla jednej obserwacji. Jeśli zamiast pliku separowanego w poprzednim oknie wybraliśmy format kolumnowy, to zamiast tej opcji pojawi się opcja Liczba wierszy reprezentujących jedną obserwację. Opcja ta pozwala kilka wierszy pliku tekstowego traktować jako jedną obserwację. W tym kroku możemy też zdecydować czy chcemy wczytać wszystkie obserwacje (Ile obserwacji zamierzasz zaimportować?), czy też np. pierwszych N obserwacji, lub wylosować w przybliżeniu jakiś ich procent. Czwarty krok kreatora jest inny dla plików separowanych (rys. 4.14) i inny dla plików w formacie kolumnowym. Dla plików w formacie separowanym jest to pytanie o rodzaj separatora zmiennych (Jakie separtory pojawiają się pomiędzy zmiennymi?), np. przecinek, średnik, tabulacja oraz o to, w obrębie jakiej pary znaków podane są wartości zmiennych tekstowych (Jaki jest kwalifikator tekstu? – apostrofów, cudzysłowów, czy innych zadeklarowanych przez użytkownika znaków). Dla plików w formacie kolumnowym musimy za pomocą myszy wskazać, w której kolumnie kończą się wartości dla jednej zmiennej i zaczynają dla drugiej. 41 Wprowadzenie do pracy z programem SPSS for Windows deklaracja sposobu separowania ciągu znaków wartości tekstowej rodzaje separatora wartości Rysunek 4.14. Definicja operatora zmiennych w pliku separowanym W kroku piątym możemy zmienić nazwy i format zmiennych na etapie ich wczytywania do Edytora danych SPSS (rys. 4.15). deklaracja formatu Rysunek 4.15. Definicja nazw i formatów zmiennych 42 Podstawowe operacje na plikach danych Ostatni, szósty krok, pozwala na zapisanie definicji utworzonych w poprzednich krokach do postaci pliku szablonu (*.tpf ) na potrzeby późniejszego wykorzystania (rys. 4.16). Możemy też podjąć decyzję o wykonaniu pobierania pliku (Naciśnij przycisk Zakończ, aby zakończyć działanie kreatora) lub zapisu do okna języka poleceń (Czy wkleić składnię polecenia do okna Edytora poleceń?), w celu dokumentacji lub późniejszego wykonania zestawu instrukcji. zapis pliku opisującego strukturę danych tekstowych wykonanie lub wklejenie do okna języka poleceń zaczytanie danych do pamięci Rysunek 4.16. Tworzenie pliku szablonu definicji oraz buforowanie danych W kroku tym możemy też wybrać opcję Buforuj dane lokalnie. Jej włączenie spowoduje utworzenie kopii pliku danych w pamięci wirtualnej, co poprawi szybkość dalszych analiz prowadzonych na tym pliku. Pozostawienie tej opcji wyłączonej skutkuje czymś w rodzaju otwarcia powiązania z tym plikiem, ale bez jego pełnego wczytania. W efekcie każda analiza będzie pobierała od początku dane z pliku tekstowego. Przykładowo, jeśli między dwoma analizami (np. dwukrotne liczenie średniej dla tej samej zmiennej) przybędzie obserwacji w pliku tekstowym, to nowsza analiza będzie prowadzona na powiększonym pliku danych. 43 Wprowadzenie do pracy z programem SPSS for Windows Jak widać, wczytywanie danych w formacie tekstowym jest bardziej złożone niż w przypadku otwierania plików danych z innych formatów i wymaga dokładnej znajomości struktury pliku danych. Niemniej umiejętność wczytywania plików z formatu tekstowego może być niezbędna w sytuacji, gdy mamy do czynienia z systemami baz danych stworzonymi wiele lat temu, czy też niekiedy w przypadku korzystania z systemów baz danych osadzonych na innych platformach systemowych. Do dziś w wielu instytucjach korzysta się z plików tekstowych jako standardu archiwizacji danych. Wykorzystując język poleceń programu SPSS można wczytywać pliki tekstowe nawet o dużo bardziej złożonej strukturze. 4.5. Współpraca z relacyjnymi bazami danych i arkuszami kalkulacyjnymi z wykorzystaniem ODBC Pakiet SPSS for Windows może korzystać z danych zawartych w relacyjnych bazach danych i arkuszach kalkulacyjnych. Dotyczy to zdecydowanej większości współcześnie tworzonych aplikacji bazodanowych. SPSS umożliwia jednoczesny dostęp do wielu tabel takich aplikacji jak: Access, Paradox, Oracle, MS SQL, DB2, Sybase, Progress, Informix itp. Warunkiem koniecznym bezpośredniego pobrania danych do SPSS jest posiadanie sterowników ODBC do danego typu bazy danych. Wraz z programem SPSS dostarczany jest pakiet sterowników do wszystkich wymienionych powyżej baz danych. Można też skorzystać z narzędzi dostępowych oferowanych przez producenta danej bazy danych. Mechanizm ODBC może zostać także wykorzystany do pobierania danych z arkuszy kalkulacyjnych. Aby wczytać bazę danych przechodzimy do menu Plik i wybieramy opcję Przejmij bazę danych. Wybranie opcji Nowa kwerenda spowoduje uruchomienie Kreatora przejmowania baz danych. W pierwszym kroku pojawia się pytanie o źródło danych (rys. 4.17). Należy wówczas z listy dostępnych źródeł danych wybrać właściwe, np. Sprzedaż . Jeżeli na liście nie ma właściwej pozycji, należy ją dodać, wciskając przycisk Dodaj źródło danych. 44 Podstawowe operacje na plikach danych lista zdefiniowanych źródeł danych Rysunek 4.17. Kreator przejmowania baz danych – źródła danych Jako źródło danych możemy zdefiniować nie tylko typ bazy, ale także konkretny plik danego typu. Jeśli nie zrobimy przypisania do konkretnej bazy danych jako źródła, pojawi się wtedy okno dialogowe pozwalające na wskazanie ścieżki dostępu do konkretnego pliku. Jeśli na bazę danych zostały nałożone przez administratora ograniczenia dostępu, to w następnej kolejności pojawi się okno dialogowe z pytaniem o: nazwę użytkownika – Login; hasło – Password; nazwę serwera – Server. W drugim kroku wybieramy całe tabele lub wybrane zmienne, które chcemy wczytać do SPSS (rys. 4.18). Okno dialogowe podzielone jest na dwie części – po lewej znajduje się lista dostępnych tabel i zmiennych, po prawej lista zmiennych, które zostaną pobrane do SPSS. 45 Wprowadzenie do pracy z programem SPSS for Windows tabele w źródłowej bazie danych zmienne w źródłowej bazie danych Rysunek 4.18. Kreator przejmowania baz danych – pobieranie zmiennych Aby przenieść tabelę wystarczy ją zaznaczyć i przeciągnąć do pola po prawej stronie okna, przy wciśniętym lewym przycisku myszy. Podobnie można przenieść tylko wybrane zmienne. Aby uzyskać dostęp do zmiennych, należy w polu po lewej stronie nacisnąć na znak plus obok nazwy tabeli, w której znajduje się dana zmienna. Po wskazaniu zmiennych, które chcemy wczytać do SPSS, należy nacisnąć przycisk Dalej. W kroku trzecim definiujemy relacje między tabelami (rys. 4.19). Wybranie opcji Automatyczne sprzęganie tabel spowoduje automatyczne połączenie tabel na bazie odpowiadających sobie zmiennych w różnych tabelach. Można także zdefiniować powiązanie między tabelami samodzielnie, przeciągając (przy wciśniętym lewym przycisku myszy) zmienną z jednej tabeli na odpowiadającą jej zmienną w drugiej tabeli. 46 Podstawowe operacje na plikach danych przyciski definiowania relacji Rysunek 4.19. Kreator przejmowania baz danych – ustalanie relacji między tabelami Korzystając ze znajdujących się w oknie po prawej stronie przycisków można ustalić typ relacji jako: Sprzężenie wewnętrzne – wybiera tylko odpowiadające sobie rekordy z tabel; Lewe lub Prawe sprzężenie zewnętrzne – wybiera wszystkie rekordy z tabeli, od której wychodzi strzałka i odpowiadające rekordy z tabeli, do której dochodzi strzałka. Różnica pomiędzy Lewym sprzężeniem zewnętrznym i Prawym sprzężeniem zewnętrznym sprowadza się do wskazania, z której z dwóch połączonych tabel mają być wczytane wszystkie obserwacje. Kolejny krok umożliwia definiowanie warunków wczytywania obserwacji (rys. 4.20). 47 Wprowadzenie do pracy z programem SPSS for Windows włączenie opcji losowania próby lista funkcji, z których można skorzystać przy nakładaniu warunków pobierania danych tworzenie okna dialogowego z zapytaniem o wartość parametru Rysunek 4.20. Kreator przejmowania baz danych – nakładanie warunków pobierania danych Można więc wczytywać obserwacje spełniające określony warunek, np. kwota sprzedaży wyższa od 1000,- PLN, data sprzedaży zawiera się w przedziale pomiędzy styczniem a grudniem 1998 itp. Jeśli więc chcemy wczytać dane pod warunkiem, że kwota sprzedaży jest większa niż 1000,- PLN, to w polu Wyrażenie 1 wpisujemy nazwę zmiennej kwota (lub wybieramy z listy rozwijanej), w polu Relacja wybieramy lub wpisujemy operator >, a w polu Wyrażenie 2 – wartość 1000. Na tym etapie można też zdefiniować pytania o wartości, które będą wyświetlane przy uruchomieniu kwerendy. Na przykład, jeśli tworzymy kwerendę do bazy danych sprzedaży, z której będziemy korzystać wielokrotnie, ale chcemy mieć możliwość za każdym razem wybrania innego miesiąca, dla którego zostaną wczytane dane, to skorzystanie z opcji Pytanie o wartość pozwoli nam zdefiniować okno dialogowe z pytaniem, dla jakiego miesiąca dane mają być pobrane. 48 Podstawowe operacje na plikach danych W ramach tego okna można także dokonać losowania próby. Po wybraniu opcji Zastosuj losowanie próby aktywują się dwie opcje kluczowe: SPSS wylosuje próbę oraz Losowanie próby w bazie danych. Druga z opcji jest aktywna tylko wtedy, gdy źródłowa baza danych obsługuje losowanie prób. Jeśli opcja ta jest aktywna, to zazwyczaj szybsze jest losowanie z jej wykorzystaniem, gdyż w przypadku pierwszej opcji konieczne jest pobranie całości danych do programu SPSS, a następnie dokonanie losowania z użyciem jego algorytmów. W przypadku losowania próby w bazie danych, SPSS wydaje tylko polecenie SQL bazie danych. Dodatkowo pozwala to wykorzystać do tego zadania moc obliczeniową serwera bazy danych, jeśli jest on zainstalowany na lepszym komputerze niż SPSS. Po wybraniu programu, który ma dokonać losowania możemy zdecydować, czy chcemy wylosować określony procent obserwacji (w przybliżeniu), czy dokładnie określoną liczbę obserwacji, np. pierwszych 100 tys. obserwacji. W kroku piątym możemy zmienić nazwy pobieranych zmiennych (rys. 4.21). włączenie opcji automatycznego rekodowania nazwa zmiennej; w SPSS możliwa jest jej edycja w tym polu Rysunek 4.21. Kreator przejmowania baz danych – zmiana nazw kolumn 49 Wprowadzenie do pracy z programem SPSS for Windows W oknie dialogowym po lewej stronie znajdują się nazwy tabel i zmiennych w źródłowej bazie danych. W prawej części okna znajdują się nazwy, jakie zostaną nadane zmiennym po wczytaniu ich do programu SPSS (Nazwa zmiennej). W oknie tym można też zdecydować o konwersji zmiennej przyjmującej w bazie danych wartości tekstowe na wartości numeryczne. Konwersji dokonuje się poprzez zaznaczenie kwadratu dla danej zmiennej w kolumnie Etykiety. W wyniku konwersji zmiennej kraj przyjmującej wartości Albania, Bułgaria itp. otrzymamy zmienną kraj , przyjmującą wartość 1 dla Albanii i 2 dla Bułgarii, natomiast wartości tekstowe posłużą do automatycznego stworzenia etykiet dla tych zmiennych, czyli wartość 1 będzie miała etykietę Albania, a wartość 2 – Bułgaria. Dokonanie takiej transformacji zapewni później szybsze operacje na danych w obrębie programu SPSS, niż w sytuacji, gdy pozostawimy taką zmienną jako zmienną tekstową. Ostatni, szósty krok, pozwala na zapisanie kwerendy w postaci komend w oknie języka poleceń SPSS jako zapytania SQL, lub jako pliku (rys. 4.22). kod SQL wykonanie lub wklejenie do okna języka poleceń Rysunek 4.22. Kreator przejmowania baz danych – kwerenda w postaci SQL 50 Podstawowe operacje na plikach danych Z zapisanej kwerendy możemy skorzystać, wybierając z menu Plik opcję Przejmij bazę danych, a następnie opcję Uruchom kwerendę. W kroku tym możemy też wybrać opcję Buforuj dane lokalnie. Jej włączenie spowoduje utworzenie kopii pliku danych w pamięci wirtualnej. Wybranie tej opcji poprawia szybkość dalszych analiz prowadzonych na tym pliku. Pozostawienie tej opcji wyłączonej skutkuje otwarciem powiązania z tym plikiem, ale bez jego pełnego wczytania. 51