„We define ourselves by what we choose to remember and forget.” Daniel Pitti, University of Virginia INTRODUKCJA Opr. HWs (AGAD) UKŁAD • Podstawowe: – Strony internetowe – Literatura • Wprowadzenie: – EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • Historia Projektu • Układ DTD • Uwagi prof. Petera HORSMANA na temat EAD • EAD - Pytania • Dodatkowe objaśnienie – SGML, XML – TEI • PODSTAWOWE ADRESY: – www.loc.gov/ead/ead.html - Official Web Site – www.jefferson.village.virginia.edu/ead Help Pages PODSTAWOWA LITERATURA • EAD - Encoded Archival Description, Tag Library, Version 1.0, prepared and maintained by the Encoded Archival Description Working Group of the Society of American Archivists and the Network Development and MARC Standards Office of the Library of Congress, Chicago 1998, s. VII. • EAD - Encoded Archival Description, Application Guidelines, Version 1.0, Chicago 1999. • The EAD Cookbook by Michael J. Fox, June 2000 Encoded Archival Description • EAD to standard ustrykturalizowania danych przeznaczony do utrwalenia hierarchii i opisu zawartości pomocy archiwalnych dostosowany do pomocy archiwalnych z całego świata. Umożliwia on prezentację pomocy archiwalnych poprzez Internet, a także zapewnia trwałość, gdyż jest stabilnym środowiskiem z którego dane mogą być przetransferowane do innego środowiska programowego, gdy zajdzie taka potrzeba. Encoded Archival Description • Istotę EAD stanowi DTD (Document Type Definition) opracowany i dostosowany dla zakodowania archiwalnych pomocy wyszukiwawczych. • DTD zostało ułożone zgodnie z zasadami składni SGML (i jest transferowalne do XML). Encoded Archival Description • EAD pozwoli na zbudowanie „multuirepository data base” - bazy danych z pomocami wyszukiwawczymi z różnych archiwów, pozwalającej na prowadzenie poszukiwań w wielu pomocach z wielu archiwów. EAD to: • data structure standard dla pomocy archiwalnych, pozwalający na wielokrotne wykorzystanie informacji raz wpisanych, ich wymianę i długotrwałą dostępność; • format komunikacji umożliwiający archiwom udostępnianie pomocy przez Internet - zarówno lokalnym, jak i odległym użytkownikom; • technologia, które jest oparta na standardach, niezależna od platformy sprzętowej, mająca do dyspozycji bardzo wszechstronne narzędzia wyszukiwawcze, (wyszukanie, dostarczenie, wyświetlenie i nawigowanie). Wprowadzenie EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN; Amsterdam, Archiefschool • W ciągu ostatnich kilki lat zakodowany opis archiwalny EAD skupiał na sobie znaczne zainteresowanie archiwistów z całego świata. Opis narodził się w Ameryce i nasi amerykańscy koledzy rozpoczęli kampanię dla powszechnej akceptacji EAD by wreszcie może doprowadzić zakodowany opis archiwalny do rangi standardu ISO. The Resarch Library Group - ciesząca się autorytetem organizacja w świecie bibliotecznym, do której należą także małe prywatne archiwa, popiera użycie EAD; Biblioteka Kongresu Stanów Zjednoczonych, jedna z największych bibliotek świata, prowadzi jedno z wiodących wdrożeń. EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • EAD rozpoczęło się w sferze mniejszych archiwów, w większości takich, które nazywa się w Ameryce Północnej repozytoriami rękopisów. Obecnie kilka większych publicznych archiwów, włączając w to Public Record Office w Londynie także rozpoczęło jego wdrażanie. • Wydaje się, że będzie to historia zakończona sukcesem, ale z drugiej strony, można się przekonać że te projekty wdrożenia są zarówno czaso- jak i kapitało- chłonne. Niektórzy krytycy zapewniają, że koncepcja stojąca za EAD jest zbyt głęboko osadzona w bibliotekoznawstwie i że owa metoda nie przystaje do poglądów archiwalnych. Ktoś mógłby zapytać, czy tak naprawdę EAD jest tym odmłodzeniem archiwalnego opisu, które powinno przenieść archiwa do społeczeństwa informacyjnego. EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • Pojęcie Zakodowany Opis Archiwalny zawiera dwa, lub jak wolicie nawet trzy elementy: (archiwalny), opis i zakodowanie. To co powoduje, że EAD jest tak odmienne od tradycyjnego opisu znajduje się właśnie w sposobie kodowania. Samo kodowanie nie jest porywającą częścią EAD; standaryzacja opisu wymagająca, by móc w pełni korzystać z jej dobrodziejstw, narzędzi do kodowania, to właśnie standaryzacja jest wyzwaniem. HISTORIA PROJEKTU - 1993 • Początek projektu w Berkeley - opracowanie standardu kodowania pomocy archiwalnych (wzór z TEI) wykraczającego poza możliwości MARC. Kierownik Daniel Pitti • Kryteria: – 1. możliwość szerokiego przedstawienia informacji i wzajemnie powiązanych informacji z pomocy archiwalnych – 2. możliwość zachowania hierarchicznych relacji między poziomami opisu – 3. możliwość przedstawienia deskrypcyjnych informacji, które są przekazywane z jednego hierarchicznego poziomu opisu na inny (niższy) – 4. możliwość poruszania się wewnątrz hierarchicznej struktury informacji – 5. rozwiązanie problemów ze specyficznymi indeksami i uzyskiwaniem informacji SGML - wybrany jako metajęzyk z zespołem reguł dla definiowania i prezentacji logicznej struktury dokumentu, stwarzający możliwości wyszukiwawcze oraz prezentacyjne. 1995 • Marzec - Berkeley Finding Aids Project (BFAP lub FINDAID DTD) – 1. strona tytułowa (nazwa archiwum, typ pomocy) – 2. opis (krótki - jak MARC'owski i długi - opis narracyjny jednostki i jej wyróżnialnych części (tytuł , daty, zawartość) – [testowy opis 200 pomocy z 50 archiwów] • Kwiecień - dołącza Biblioteka Kongresu i Commission on Preservation and Access • Lipiec - stypendium Bentley Library i A. W. Mellon Foundation na konferencję w Ann Arbor, tu określenie co ma być wykonane: – 1. zaprojektowanie zasad standardu kodowania dla pomocy archiwalnych – 2. rewizja dotychczasowego modelu danych – 3. rewizja DTD dla pomocy archiwalnych – 4. wytyczne dla kodowania z przykładami (Guidelines - Tag Library) – 5. artykuł podsumowujący dotychczasowe działania • Ann Arbor Accord - tu nazwa EAD • Dwa segmenty pomocy archiwalnych: – informacje o samej pomocy (tytuł, twórca, daty) <heder> – opis hierarchiczny zgodny z archiwalną organizacją opisywanego materiał. Od ogół u do szczegół u z tym, że szczegół "dziedziczy" potrzebne informacje ogólne. – Dodatkowe informacje (bibliografia) – Informacje o zawartości (kolekcji, zbioru, serii) – ** deskrypcyjne elementy zagnieżdżane w odpowiednich punktach opisu jednostki lub jej części składowych – ** ogólne elementy zagnieżdżane w deskrypcyjnych • Jeżeli elementy są analogiczne z tymi TEI to trzeba przejąć model zawartości z TEI 1995 (cd) • Sierpień - Dołącza się Society of American Archivists ono składa prośbę do komórki standaryzacyjnej Library of Congers (MARC Standards Office) o bycie agencją podtrzymującą EAD (dokumentacja DTD, server www listserv) • ATLIS Consultin Group - specjaliści od SGML 1996 • Luty - wersja wstępna EAD (+ elektroniczna dokumentacja) pół roku na uwagi - comment period • Kwiecień - prace nad wersja β i logo • Październik - wersja β (rok na uwagi) – 20 workshops in US (RLG/SSA) prezentujących dotychczasowy stan 1997 – 50 e-mail z uwagami do wersy β (archiwa: Szwecja, Anglia, Kanada, Biblioteka z Oxfordu) • Listopad - adaptacja XML 1998 • Sierpień EAD DTD (wersja 1.0) (+ 262 str. dokumentacja i dwa numery The American Archivist) -SAA podtrzymywanie intelektualne EAD • 1993 • Początek projektu w Berkeley - opracowanie standardu kodowania dla komputerów pomocy archiwalnych (wzór z TEI) wykraczającego poza możliwości MARC. Kierownik Daniel Pitti • Kryteria: • 1. możliwość szerokiego przedstawienia informacji i wzajemnie powiązanych informacji z pomocy archiwalnych • 2. możliwość zachowania hierarchicznych relacji między poziomami opisu • 3. możliwość przedstawienia deskrypcyjnych informacji, które są przekazywane z jednego hierarchicznego poziomu opisu na inny (niższy) • 4. możliwość poruszania się wewnątrz hierarchicznej struktury informacji • 5. rozwiązanie problemów ze specyficznymi indeksami i uzyskiwaniem informacji • SGML - wybrany jako metajęzyk z zespołem reguł dla definiowania i prezentacji logicznej struktury dokumentu, stwarzający możliwości wyszukiwawcze oraz prezentacyjne. • 1995 - marzec - Berkeley Finding Aids Project (BFAP lub FINDAID DTD) • 1. strona tytułowa (nazwa archiwum, typ pomocy) • 2. opis (krótki - jak MARC'owski i długi - opis narracyjny jednostki i jej wyróżnialnych części (tytuł , daty, zawartość) • [testowy opis 200 pomocy z 50 archiwów] • kwiecień- dołącza Biblioteka Kongresu i Commission on Preservation and Access • lipiec - stypendium Bentley Library i A. W. Mellon Foundation na konferencję w Ann Arbor (Bentley team - także przedstawiciele NARA), tu określenie co ma być wykonane: • 1. zaprojektowanie zasad standardu kodowania dla pomocy archiwalnych • 2. rewizja dotychczasowego modelu danych • 3. rewizja DTD dla pomocy archiwalnych • 4. wytyczne dla kodowania z przykł adami (Guidelines - Tag Library) • 5. artykuł podsumowujący dotychczasowe działania • [Ann Arbor Accord] - tu nazwa EAD • Dwa segmenty pomocy archiwalnych: • - informacje o samej pomocy (tytuł, twórca, daty) <heder> • - opis hierarchiczny zgodny z archiwalną organizacją opisywanego materiał. Od ogół u do szczegół u z tym, że szczegół "dziedziczy" potrzebne informacje ogólne. • - dodatkowe informacje (bibliografia) • - informacje o zawartości (kolekcji, zbioru, serii) • ** deskrypcyjne elementy zagnieżdżane w odpowiednich punktach opisu jednostki lub jej części składowych • ** ogólne elementy zagnieżdżane w deskrypcyjnych • Jeżeli elementy są analogiczne z tymi TEI to trzeba przejąć model zawartości z TEI • sierpień dołącza się Society of American Archivists - ono składa prośbę do komórki standaryzacyjnej Library of Congers (MARC Standards Office) o bycie agencją podtrzymującą EAD (dokumentacja DTD, server www - listserv) • ATLIS Consultin Group - specjaliści od SGML • 1996 - luty 26 wersja alfa EAD (+ elektroniczna dokumentacja) pół roku na uwagi - comment period • kwiecień prace nad wersja beta i logo • październik wersja beta (rok na uwagi) • 20 workshops w US (RLG/SSA) • 1997 • 50 e-mail z uwagami do wersy Beta (archiwa: Szwecja, Anglia, Kanada, Biblioteka z Oxfordu) • listopad - adaptacja XML • 1998 • sierpień EAD DTD (wersja 1.0) (+ 262 str. dokumentacja i dwa numery The American Archivist). • SAA podtrzymywanie intelektualne EAD Gramatyka języków znakowania Konwencja: <polecenie> <polecenie parametr= "wartość"> tekst </polecenie> </polecenie> Przykład z HTML • < !DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN" > < HTML> < HEAD> < TITLE> Mini Kurs HTML < /TITLE> < META HTTP-EQUIV="Content-type" CONTENT="text/html; charset=iso-8859-2"> < META HTTP-EQUIV="Creation-date" CONTENT="2002-0520T08:03:05Z"> < META HTTP-EQUIV="Content-Language" CONTENT="pl"> < META NAME="Keywords" CONTENT="html"> < META NAME="Author" CONTENT=„HWs"> < META NAME="Authoring_tool" CONTENT="CS Pajączek 2000 PRO v4.8.1"> </HEAD> .... < /HTML> EAD - struktura _______________________________________________________________________ <!DOCTYPE ead PUBLIC ......... [ <!ENTITY % eadnota PUBLIC %eadnata; ]> ________________________________________________________________________ <ead> - nagłówek ______________________________________________________________________ 1. informacje o samej pomocy (tytuł, kto, kiedy etc. ją opracował) <eadheader> ___________________________________ 2. strona tytułowa z wybranymi elementami <frontmatter> ______________________________________________________________________ 3. informacja o archiwaliach <archdesc LEVEL = "fonds" > EAD - struktura _________________________________________________________ <eadheader> <eadid> - unikatowy kod danej pomocy <filedesc> bibliograficzne informacje o pomocy (autor, tytuł, podtytuł, wydawca, seria wydawnicza) <profiledesc> - dane odnośnie kodowania w EAD <revisiondesc> informacje o dokonywanych zmianach EAD - struktura <did> - descriptive identification - opis ogólny podstawowy <container TYPE ="box"> <origination> - aktotwórca <abstract> - streszczenie < note> - uwagi <physdesc> - opis zewnętrzny, rozmiary, cechy stanu fizycznego <extent> - rozmiary <physloc> - lokalizacja, w magazynie <repository> - archiwum <unitdate> - daty powstania <unitid> - sygnatura <unittitle> - tytuł Koncepcja EAD EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • Narodzony w USA • Rozszerzenie MARC-AMC na poziomy • Zorientowany na użytkownika • Kodowanie pomocy archiwalnych • Standardowy format • Technologia: XML • Dostępność wzorców DTD niższe Kodowanie EAD EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • • • • • Koncepcja XML, HTML DTD TEI Zastosowania EAD Co przedstawia pomoc archiwalna EAD? EAD i bazy danych EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • EAD zaprojektowano dla kodowania istniejących pomocy archiwalnych • Możliwe jest pobranie danych z bazy danych • Zalety: – Podtrzymywanie (elastyczność) – Integracja z innymi aplikacjami – Wprowadzanie nowych opisów Dalsze kierunki EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • Działania w międzyczasie: • Czy użytkownicy nadal będą oczekiwać spisów w przyszłości? • Konieczność przekształcania pomocy archiwalnych • Standardy systemów informacyjnych • Rozwój systemów metadanowych • Encoded Archival Context (EAC) - kodowanie kontekstu archiwalnego • Współpraca z Komitetem do spraw Standardów Opisu • Konieczność zbadania potrzeb użytkownika • Współdziałanie z innymi dyscyplinami • Archiwa nie są samotne na świecie Wnioski EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN • EAD ma wielkie potencjalne właściwości • Poprawienie istniejącego systemu pomocy archiwalnych • Wdrożenie wymaga dodatkowych prac przygotowawczych • Potrzebna jest wizja przyszłości EAD - PYTANIA 1. Czy wdrażać? a) czy istnieje program opisu pomocy archiwalnych? b) czy są stosowane przy tym opisie jakieś standardy? c) czy potrzeba EAD wynika z misji archiwum? • Czy istnieje już zespół ludzi zajmujący się takimi działaniami, czy są możliwości techniczne software i harware? • Czy jest możliwość współpracy z innymi instytucjami w zakresie wspólnego wprowadzania EAD? • Czy możliwe będzie podtrzymywanie w długim czasie standardu i opisów, uwzględniając zmiany technologiczne? EAD - PYTANIA 2. Jak tworzone są elektroniczne pomoce? a) czy istnieje możliwość konwersji dotychczasowych pomocy na EAD? • Ocena dotychczasowych pomocy archiwalnych: – – – – jaka jest możliwość konwersji na EAD? zasady i technologia konwersji? wybór oprogramowania? załadowanie DTD i sprawdzenie technologii i prawidłowości działania i zgrania z SGML EAD - PYTANIA 3. Jak się je upowszechnia? a) czy jest bezpieczne i stałe połączenie z internetem? • Podłączenie do sieci (koszty) i - przeszukiwarki. • EAD jest dość złożoną technologią i jego zastosowanie ma sens tylko wówczas gdy potencjalne korzyści korespondują z celami wdrażającej go instytucji. SGML Standard Generalized Markup Language standardowy uniwersalny język znakowania • 1969 r. - IBM projekt GML (Generalized Markup Language). Projektem kierował Charles Goldfarb. • 1986 r. - SGML - standardem ISO 8879:1986 • SGML służy do przygotowywania formatu i obróbki dokumentów elektronicznych w celu wymiany danych pomiędzy różnymi programami i systemami operacyjnymi, pozwalającego na prezentowanie metadanych związanych z dokumentem i jego powiązań hipertekstowych. SGML • Jest to meta język pozwalający - za pomocą określonych znaczników (markups, tags) - na przedstawienie struktury dokumentu oraz umożliwiający zdefiniowanie i oznakowanie różnych typów dokumentów. Powstaje w ten sposób niezależna od sprzętu komputerowego i systemu operacyjnego baza tekstowa (textbase). Znacznik to informacja o dokumencie, która nie jest częścią dokumentu, choć może wpływać na jego wygląd. SGML pozwala na: • 1. określenie formatu dokumentu (procedural markup): zaznaczenie krojów czcionki, interlinii, etc.; • 2. zdefiniowanie logicznej struktury dokumentu (descriptive markup): zaznaczenie nie tylko struktury - rozdziały, akapity etc., lecz także określenie semantyki, np. wyróżnienie tekstów pisanych w innych językach (wraz z określeniem jakie to języki). Pozwala to przede wszystkim na zdefiniowanie i wyróżnienie wszelkich nazw własnych i stanowi zasadniczą zaletę SGML; • 3. umożliwia też znakowania odsyłaczy hipertekstowych (referential markup) tak wewnątrz dokumentu, jak i z innymi dokumentami lub obiektami: graficznymi, dźwiękowymi i wszystkimi rodzaju danymi zapisanymi w formie cyfrowej. XML eXtensible Markup Language • 1998 r. - World Wide Web Consortium - W3C • XSL (eXtensible Stylesheet Language) • Jest to metajęzyk mający wspólna gramatyka i jednolita metodologia opartą na SGML. Za pomocą tego metajęzyka można stworzyć uniwersalny format dla dokumentów mających strukturę i zawierających dane - można opisać nie tylko dane, ale i ich strukturę (metadane). W odróżnieniu od języka HTML, który pozwala tylko na formatowanie tekstu, XML pozwala opisać to, co faktycznie zawiera informacja tekstowa. XML • eXtensible oznacza, że jest on rozszerzalny; można doń dodawać nowe elementy czyli przetwarzać dokumenty zapisane w dowolnym formacie. XML pozwala rozwiązać problemy wymiany informacji między niekompatybilnymi systemami informatycznymi. Język ten dostarcza składni do konstruowania komunikatów możliwych do zrozumienia przez dowolne aplikacje. Daje on możliwość tworzenia słowników - zbioru znaczników (tag) określających strukturę dokumentu. Wyróżnia się dwa typy dokumentów XML 1. Właściwie sformatowany (well-formated). Ten typ nie wymaga w ogóle DTD i jest idealny dla celów komercyjnych - choć tu nie określa się znaczenia tych znaczników i mogą powstawać problemy z synonimami. 2. Poprawny (valid), który musi zawierać DTD dlatego aby nie stwarzać sytuacji niejednoznacznych jest konieczna standaryzacja różnych specyficznych typów dokumentów osiągana za pomocą definicji typu dokumentu (Document Type Definition - DTD). DTD to schemat XML wiążący znaczniki ze strukturą. TEI - Text Encoding Initiative http://www.uic.edu:80/orgs/tei 1987 Standaryzacja formatu danych podjęta przez Association for Computers and the Humanities - przygotowanie szczegółowych wytycznych kodowania tekstów literackich i językoznawczych. (fundusze m. in.: DG XIII, Mellon Foundation) 1989 Chicago: 15 osobowy zespół (US i Europa) 1990 P1 - 300 str. dokumentacji; szeroko publikowany, 15 komisji 1993 100 naukowców - Wskazówki TEI (P3) - TEI DTD (1300 stron): – SGML – adnotowanie deskryptywne – język opisu danych + format wymiany danych tekstowych TEI - Text Encoding Initiative • TEI ponad 400 podstawowych elementów (cech) oraz zestawy atrybutów • DTD opisuje gramatykę wzajemnych powiązań między modułami; 3 typy znaczników: – podstawowe (core), w każdej wersji DTD (nagłówek TEI) – bazowy, specyficzny dla odpowiedniego rodzaju tekstu (proza, poezja, dramat....) – dodatkowy, dla specyficznego kąta, zainteresowań. • LITERATURA: – R. T. Prinke, Fontes ex Machina, Komputerowa analiza źródeł historycznych, Poznań 2000, s. 120-191.