Projektowanie Systemów Komputerowych

PROJEKTOWANIE
SYSTEMÓW
KOMPUTEROWYCH
WYKŁAD NR 2
PROCESORY KOMPUTEROWE
dr Artur Woike
Historia
mikroprocesorów
Procesor Viatron
• Termin „mikroprocesor” został wprowadzony przez
amerykańską firmę Viatron Computer Systems
(założona w 1967 r., zbankrutowała w 1971 r.).
• W 1968 r. stworzyła ona mały komputer o nazwie
System 21.
• Podstawowy zestaw składał się z mikroprocesora,
pamięci RAM, klawiatury, panelu kontrolnego,
9” monitora CRT i maksymalnie dwóch urządzeń
peryferyjnych (np. czytnika/perforatora kart,
kasetowego napędu magnetycznej pamięci
taśmowej).
Procesor Four-Phase Systems Inc.
• Four-Phase Systems Inc. była amerykańską firmą
komputerową założoną w 1969 r. (w latach 19811982 wykupiona przez Motorolę).
• W 1970 r. zaprojektowała ona 8-bitowy moduł
o nazwie AL-1.
• AL-1 zawierał osiem rejestrów i jedną jednostkę
arytmetyczno-logiczną.
• Z połączenia trzech modułów AL-1, trzech modułów
pamięci ROM i trzech układów „random logic”
powstawał 24-bitowy mikroprocesor.
• W 1995 r. Lee Boysal (twórca AL-1) zmontował
na potrzeby eksperymentu procesowego system
komputerowy zawierający pojedynczy moduł AL-1
jako mikroprocesor, moduł pamięci ROM, moduł
pamięci RAM i moduł I/O.
Grumman F-14 Tomcat
• Jest to ponaddźwiękowy, 2-miejscowy, 2-silnikowy
samolot myśliwski o zmiennej geometrii skrzydeł.
• Oblatany 21.12.1970 r., w użyciu od 1974 do 2006 r.
Garret AiResearch MP944
• Początki firmy Garret AiReseaech sięgają 1936 r.
• Firma wielokrotnie zmieniała nazwę (obecnie część
koncernu Honeywell International, Inc.), ale zawsze
zajmowała się techniką lotniczą.
• MP944 jest to mikroprocesor obsługujący centralę
aerometryczną w myśliwcu F-14 Tomcat.
• Prace projektowe rozpoczęto na zamówienie
Marynarki Wojennej USA w 1968, a zakończono
w 1970 r.
• MP944 był 20-bitowym układem obsługującym
przetwarzanie potokowe.
• W 1971 r. Ray Holt (jeden z twórców MP944) opisał
ten układ w artykule do branżowego czasopisma
„Computer Design”.
• Z uwagi na znaczne zaawansowanie konstrukcji
artykuł i projekt utajniono aż do 1997 r.
Texas Instruments TMS1000
•
•
•
•
•
Firmę Texas Instruments założono w 1951 r.
TMS1000 został zaprojektowany w 1971 r.
Oficjalnie zaprezentowany 17.09.1971 r.
Produkowany w latach 1974-1981.
Jest to pierwszy jednoukładowy komputer (pojedynczy
układ scalony zawiera procesor, pamięć RAM, pamięć
ROM, układy I/O oraz zegar taktujący).
• Texas Instruments posiada patent na mikroprocesor
(od 1973 r.) i na mikrokomputer jednoukładowy
(od 1978 r.).
• Po raz pierwszy wykorzystany
w kalkulatorze SR-16.
• Parametry techniczne:
•
•
•
•
•
•
Procesor 4-bitowy;
Częstotliwość taktowania 300 kHz;
Wyprodukowany w technologii 8 m;
32 B pamięci RAM i 1024 B pamięci ROM;
42 rozkazy;
8 rejestrów (dwa 6-bitowe, cztery 4-bitowe, jeden 2bitowy i jeden 1-bitowy).
Intel 4004
• Firma Intel (nazwa pochodzi od słów Integrated
Electronics) została założona w 1968 r.
• W 1969 r. firma Busicom (japoński producent
kalkulatorów) zamówił projekt układu scalonego
dla wysoko wydajnych kalkulatorów.
• Marcian Hoff, inżynier przydzielony do prac
projektowych, zaproponował realizację układu
w postaci 4-składnikowej architektury.
• W skład zaproponowanej architektury wchodziły
następujące moduły:
•
•
•
•
4-bitowa programowalna jednostka obliczeniowa;
Układ pamięci ROM do przechowywania programu;
Układ pamięci RAM do przechowywania danych;
Proste urządzenie I/O.
• Początkowo Busicom odrzucił propozycję takiego
układu i zażądał zaprojektowania układu scalonego
dedykowanego dla kalkulatorów.
• Intel 4004 został przedstawiony 15.11.1971 r.
• Był produkowany od 1971 do 1981 r.
• Jest uznawany za pierwszy powszechnie dostępny
mikroprocesor.
• Parametry techniczne:
•
•
•
•
•
•
•
•
Procesor 4-bitowy;
Zbudowany z około 2300 tranzystorów;
Wyprodukowany w technologii 10 m;
Powierzchnia kości 12 mm2;
Szybkość około 92 kIPS;
Maksymalna częstotliwość taktowania 740 kHz;
Oddzielna pamięć dla danych i programu;
Pojedyncza multipleksowana szyna dla transferu 12bitowych adresów, 8-bitowych instrukcji i 4-bitowych
słów danych;
• Możliwość zaadresowania 640 B pamięci RAM i 4096 B
pamięci ROM;
• 46 rozkazów (41 rozkazów 8-bitowych i 5 rozkazów 16bitowych);
• 16 rejestrów 4-bitowych.
Budowa i zasada
działania procesora
Procesor i jego zadania
• Procesor jest inaczej nazywany centralną jednostką
wykonawcza (Central Processing Unit, CPU).
• Jest to układ scalony, którego przeznaczeniem jest
wykonywanie rozkazów.
• Procesor nadzoruje pracę wszystkich podzespołów
komputera.
• Zazwyczaj jest zorganizowany w postaci zespołu
współpracujących ze sobą bloków funkcjonalnych.
• Procesor pobiera wykonywane instrukcje z pamięci.
• Często przed wykonaniem instrukcje złożone
są rozkładane na ciągi rozkazów elementarnych
(mikrooperacji).
• Procesor rozdziela wykonanie przetwarzanych
rozkazów na swoje poszczególne podjednostki.
• Przykładowe rozkazy jakie mogą wykonywać
procesory:
•
•
•
•
•
Działania arytmetyczne;
Działania logiczne;
Instrukcje skoków;
Instrukcje warunkowe;
Kopiowanie danych (np. rejestr-rejestr, pamięć-rejestr).
• Podstawowe moduły składowe procesora:
• Jednostka arytmetyczno-logiczna (Arithmetic Logic Unit,
ALU) – wykonuje podstawowe operacje logiczne oraz
działania na liczbach całkowitych.
• Rejestry (Registers) – przechowują np. adresy komórek
pamięci, dane, wyniki obliczeń, informacje o stanie
procesora.
• Jednostka zmiennoprzecinkowa (Floating-Point Unit,
FPU) – wykonuje obliczenia numeryczne na liczbach
zmiennoprzecinkowych oraz niektóre inne złożone
instrukcje obliczeniowe.
• Układy sterujące – zajmują się np. dekodowaniem
instrukcji, dostarczaniem danych z pamięci dla ALU i FPU,
przekazywaniem do pamięci wyników obliczeń.
• Pamięć podręczna (Cache) – przyspiesza dostęp
do pamięci komputera.
Schemat blokowy procesora
• Blok komunikacyjny (Bus Unit, BU):
• Potocznie nazywany szyną procesora;
• Odpowiada za współpracę z pamięcią przechowującą
instrukcje, dane i wyniki obliczeń.
• Zazwyczaj składa się z dwóch oddzielnych magistrali
dla adresów i danych.
• Zarządzanie szyną adresową i szyną danych odbywa się
za pomocą dodatkowych sygnałów kontrolnych
i sterujących.
• Kolejka rozkazowa (Prefetch):
• Aby zapewnić płynną pracę procesora kod programu jest
pobierany w większych porcjach.
• Wstępnie pobrane dane do wykonania oczekują
na wykonanie w kolejce.
• Oczekujący na wykonanie kod jest przechowywany
w postaci zakodowanej.
• Dekoder instrukcji (Instruction Unit, IU):
• Instrukcje przeznaczone do wykonania są dekodowane
w bloku dekodera.
• Często dekoder jest wspomagany przez dedykowaną
podręczną pamięć stałą ROM zawierającą słownik
tłumaczący zdekodowane instrukcje na sekwencje
elementarnych rozkazów.
• Jednostka wykonawcza (Execution Unit, EU):
• Zdekodowane rozkazy przekazywane są do jednostki
wykonawczej w celu ich wykonania.
• Rozkazy operujące na liczbach stałoprzecinkowych
(całkowitych) są przekazywane do wykonania w module
ALU.
• Blok sterujący (Control Unit, CU) odpowiada
za sterowanie pracą modułu ALU.
• Rozkazy operujące na liczbach zmiennoprzecinkowych
są przekazywane do wykonania w module FPU.
• Jednostka adresowania (Adressing Unit, AU):
• Rozkazy często zawierają odwołania do pamięci
operacyjnej (np. argumenty rozkazu).
• Wyniki instrukcji często trzeba zapisać w ściśle
określonym obszarze pamięci.
• W takich sytuacjach za dostęp do pamięci odpowiada
właśnie jednostka adresowania.
• Ze względu na konieczność stosowanie w dostępie
do pamięci dodatkowych mechanizmów technicznych
(np. stronicowania i segmentacji) potrzebna jest
wyspecjalizowana podjednostka zarządzania pamięcią
(Memory Management Unit, MMU).
Uwagi:
• Obecnie schemat może ulegać stopniowemu rozmyciu.
• Dla współczesnych mikroprocesorów nie zawsze daje się
zastosować tak wyraźny podział na wyspecjalizowane
bloki funkcjonalne.
Jednostka arytmetyczno-logiczna
• Jednostka arytmetyczno-logiczna (Arithmetic Logic
Unit, ALU) jest centralnym blokiem procesora.
• ALU zazwyczaj wykonuje następujące rozkazy:
• Operacje arytmetyczne (np. dodawanie, odejmowanie,
negacja liczby, zwiększanie lub zmniejszanie liczby o 1,
mnożenie, dzielenie, dzielenie modulo).
• Przesunięcia bitowe (np. o stałą lub zmienną liczbę
bitów).
• Operacje logiczne (np. AND, OR, NOT, XOR).
Oznaczenia:
• A, B – operandy (argumenty);
• F – wejście z jednostki kontrolnej CU;
• R – wyjście;
• D – status wyjścia.
Jednostka zmiennoprzecinkowa
• Pierwowzorem jednostki zmiennoprzecinkowej
(Floating-Point Unit, FPU) jest koprocesor.
• Koprocesor jest układem, którego zadaniem jest
wspomaganie pracy procesora przy wykonywaniu
obliczeń numerycznych.
• Koprocesory w formie zewnętrznych układów były
stosowane do architektury 80486 włącznie.
• Układ procesor-koprocesor jest traktowany jako
pojedynczy procesor o zwiększonej liczbie
dostępnych rejestrów, rozkazów i typów danych .
• Koprocesory nie mogą pracować samodzielnie
(bez procesora głównego).
• Począwszy od architektury 80486 rolę układu
zewnętrznego koprocesora przejęły wbudowane
w układ procesora jednostki zmiennoprzecinkowe.
• Jednostki zmiennoprzecinkowe zajmują się nie tylko
operacjami zmiennoprzecinkowymi, ale również
innymi bardziej skomplikowanymi obliczeniami
(np. operacjami wektorowymi).
Pamięć podręczna
• Najszybszą dostępną dla procesora pamięcią
są jego wewnętrzne rejestry.
• Procesory o coraz większych częstotliwościach
taktowania do optymalnej pracy wymagają coraz
szybszych pamięci komputerowych.
• Stosowana obecnie pamięć operacyjna typu DRAM
(Dynamic Random Access Memory) nie może
sprostać zapotrzebowaniu na dane współczesnych
procesorów.
• Pamięć podręczna (Cache) jest buforem pomiędzy
procesorem a pamięcią operacyjną
• Jest to pamięć o krótkich czasach dostępu.
• Duża i tania pamięć operacyjna jest wspomagana
przez szybką i małą (więc nie aż tak drogą) pamięć
podręczną.
• Rozwinięciem idei pamięci podręcznej jest kaskada
pamięci podręcznych.
• W kaskadzie każdy kolejny poziom (Level) jest
większy i wolniejszy od poprzedniego.
• W praktyce obecnie używa się maksymalnie trzech
poziomów pamięci podręcznej.
• Efektywne wykorzystanie pamięci podręcznej jest
możliwe dzięki dużej spójności kodu programów
przetwarzanych przez mikroprocesory.
• W procesorach opartych na architekturze NetBurst
(np. Pentium 4, Pentium D) nie było klasycznej
pamięci podręcznej poziomu 1 (zamiast tego była
implementowana pamięć podręczna dla wcześniej
zdekodowanych mikrooperacji).
• Czasami uwzględnia się pamięć podręczną
mikrooperacji jako poziom 0.
• Obecnie często pamięć podręczna poziomu 1 jest
rozdzielona na dwie oddzielne części (dla instrukcji
i dla danych).
• Pamięć podręczna poziomu 2 zazwyczaj jest
zunifikowana.
• Pamięć podręczna poziomu 3 najczęściej jest
wspólna dla wszystkich rdzeni procesora.
• Wpływ wielkości pamięci podręcznej na wydajność
jest złożony.
Techniki przetwarzania
rozkazów
Architektura typu RISC
• Termin RISC (Reduced Instruction Set Computer)
powstał w trakcie prac nad projektem procesora
IBM 801.
• Prace nad projektem IBM 801 rozpoczęto w 1974 r.
• IBM 801 osiągał wydajność rzędu 15 MIPS.
• Architektura RISC charakteryzuje się ograniczeniem
listy rozkazów procesora do niewielkiej liczby
bardzo szybko wykonywanych operacji.
• W założeniu większość rozkazów jest realizowanych
sprzętowo, a więc można ograniczyć konieczność
stosowania dekodera instrukcji.
• Szybkość przetwarzania rozkazów RISC jest duża.
• Tłumaczenie programu z instrukcji złożonych
na rozkazy RISC jest wykonywane przez kompilator.
• Procesor musi pobrać wcześniej przetłumaczony
kod programu z pamięci komputera.
• W naturalny sposób pojawia się zapotrzebowanie
na dużą przepustowość magistrali procesor-pamięć.
Architektura typu CISC
• Architektura CISC (Complex Instruction Set
Computer) jest stosowana np. we wszystkich
wersjach architektury x86 firmy Intel.
• Procesory projektowane w architekturze CISC
realizują coraz więcej rozkazów, które mogą być
coraz bardziej skomplikowane.
• Pojedynczy rozkaz może wymagać wykonania
szeregu działań.
• Czas wykonywania rozkazu CISC może być bardzo
długi (np. kilkadziesiąt cykli zegara).
• Programy napisane dla procesorów CISC mają
zwarty kod.
• Tłumaczenie programu na rozkazy wykonuje
dekoder, który przy takim podejściu musi być
obszerny.
• Pobieranie kodu programu przez procesor jest
ułatwione (w stosunku do architektury RISC).
Obecne architektury RISC i CISC
• Początkowo architektury RISC i CISC stanowiły
odrębne kategorie.
• Obecnie podział między nimi ulega rozmyciu.
• Procesory RISC często mają długie listy rozkazów.
• Niektóre rozkazy RISC mogą być skomplikowane.
• Obecne procesory CISC często posiadają jądro
pracujące w trybie RISC.
Przetwarzanie potokowe
• Przetwarzanie potokowe polega na podzieleniu
czasu pracy procesora nad pojedynczym rozkazem
na kilka faz (stopni).
• Potok (Pipeline) w tym samym czasie pracuje nad
wykonaniem kilku rozkazów.
• Każdy rozkaz znajduje się w innej fazie wykonania.
• W każdym cyklu zegara taktującego zostaje
wykonany 1 rozkaz.
• Liczba stopni potoku (Pipeline Stages) jest
nazywana głębokością potoku.
• Podczas przetwarzania potokowego mogą się
pojawić dwie sytuacje wyjątkowe:
• Wstrzymanie potoku (np. na skutek wystąpienia
wzajemnej zależności rozkazów lub konfliktu rejestrów).
• Oczyszczenie potoku (np. na skutek wystąpienia błędu).
• Zazwyczaj wyróżniamy 4 podstawowe fazy potoku:
•
•
•
•
Pobranie (Fetch, F);
Dekodowanie (Decode, D);
Wykonanie (Execute, E);
Zakończenie (Write-Back, WB).
• W konkretnej implementacji przetwarzania
potokowego podstawowe fazy mogą być
podzielone na mniejsze bardziej uszczegółowione
stopnie.
Przetwarzanie 64-bitowe
• O typie procesora zazwyczaj decyduje rozmiar
rejestrów ogólnego przeznaczenia.
• Niektóre procesory mają część rejestrów większych
od rejestrów ogólnego przeznaczenia.
• Współczesny rynek procesorów przeznaczonych
dla komputerów osobistych jest zdominowany
przez dwie firmy:
• Intel Corporation (założona w 1968 r.);
• Advanced Micro Devices (założona w 1969 r.).
• Obie firmy na przełomie XX i XXI w. prowadziły
prace koncepcyjne nad 64-bitową architekturą
dla mikroprocesorów.
• Intel opracował architekturę IA-64.
• Pierwsze procesory oparte na architekturze IA-64
(Intel Itanium) zadebiutowały na rynku w 2001 r.
• AMD opracowało architekturę AMD64 (oznaczaną
również x86-64), będącą rozszerzeniem 32-bitowej
architektury x86-32 firmy Intel).
• Pierwsze procesory oparte na architekturze AMD64
(procesory AMD K8, obecnie AMD Family 0Fh)
pojawiły się na rynku w 2003 r.
Architektura IA-64
Założenia koncepcyjne:
• Architektura x86 jest ograniczona.
• Zgodność z poprzednimi generacjami mikroprocesorów
i dostępnym dla nich oprogramowaniem komplikuje
strukturę i działanie nowych mikroprocesorów.
• Wsteczna zgodność utrudnia innowacyjność.
• Dla komputerów o dużej wydajności będzie dostępne
dedykowane dla nich oprogramowanie skompilowane
w sposób optymalny.
• Nie będzie dużego zapotrzebowania na wykonywanie
aplikacji skompilowanych dla architektury x86-32.
• Komputery o dużej wydajności nie muszą wykonywać
powszechnie dostępnego oprogramowania w sposób
maksymalnie wydajny.
• Przeciętny użytkownik nie potrzebuje możliwości danych
przez przetwarzanie 64-bitowego.
• Przeciętny użytkownik nie będzie zainteresowany
zakupem 64-bitowego mikroprocesora.
Efekt:
• Architektura IA-64 nie jest oparta na architekturze
x86-32.
• Architektura IA-64 nie jest zgodna z architekturą x86-32.
• Procesory produkowane w oparciu o architekturę IA-64
posiadały dodatkowy moduł sprzętowy emulujący
działanie procesora x86-32.
• Niewielka wydajność w aplikacjach przeznaczonych
dla architektury x86-32.
Architektura AMD64
Założenia koncepcyjne:
• Architektura x86-32 ma swoje ograniczenia.
• Dalszy rozwój architektury x86-32 pozwoli wiele z nich
usunąć.
• Zgodność z poprzednimi generacjami mikroprocesorów
i dostępnym dla nich oprogramowaniem jest zaletą.
• Przejście na w pełni 64-bitowe oprogramowanie będzie
dokonywane bardzo powoli.
• Komputery o dużej wydajności muszą jeszcze (przez jakiś
czas) wykonywać kod powszechnie dostępnych aplikacji
skompilowanych dla architektury x86-32 w sposób
maksymalnie efektywny.
• Przeciętny użytkownik już niedługo zostanie postawiony
przed koniecznością wykorzystania możliwości danych
przez przetwarzanie 64-bitowe (np. w celu umożliwienia
efektywnej obsługi więcej niż 4 GB pamięci RAM).
Efekt:
• Całkowita zgodność z oprogramowaniem przeznaczonym
dla architektury x86-32.
• Brak emulacji architektury x86-32 (wbudowany tryb
Legacy Mode).
• Duża wydajność w aplikacjach przeznaczonych
dla architektury x86-32.
• Możliwość zaadresowania 1 TB pamięci RAM (przy
zastosowaniu 40-bitowej magistrali adresowej).
• Możliwość przydzielenia pojedynczemu procesowi
do 256 TB pamięci wirtualnej.
• Wbudowanie kontrolera pamięci w strukturę procesora
w celu skrócenia czasu dostępu do pamięci operacyjnej.
IA-64 czy AMD64?
• Ostatecznie na rynku komputerów osobistych
przyjęła się koncepcja firmy AMD.
• Architektura AMD64 jako rozwinięcie architektury
x86-32 ograniczyła konieczność stosowania
całkowicie nowego oprogramowania.
• Firma Intel (od zmodyfikowanej architektury
NetBurst) zaczęła wyposażać swoje procesory
w tryb zgodności z architekturą AMD64 (Enhanced
Memory 64-bit Technology, EM64T).
• Obecnie wszystkie nowe modele procesorów
są zgodne z architekturą AMD64.
Techniki przyspieszania
przetwarzania
Przetwarzanie superskalarne
• Procesor superskalarny posiada co najmniej 2
pracujące równolegle potoki.
• Równoległe potoki nie stanowią niezależnych
obiektów.
• Dołączenie drugiego i kolejnych potoków nie daje
gwarancji stałego wzrostu wydajności.
• Procesory superskalarne mogą zawierać wiele
modułów ALU i FPU.
• Niektóre potoki mogą być wyspecjalizowane
(wykonywanie wybranych rozkazów).
• FPU często traktuje się jako wyspecjalizowany
potok.
Przemianowywanie rejestrów
• Nie wszystkie rozkazy wykonywane przez procesor
dają się rozdzielić na równoległe potoki.
• Najczęstszą przyczyną konfliktów są odwołania
do tych samych rejestrów procesora.
• Przemianowywanie rejestrów (Register Renaming)
jest metodą polegającą na tymczasowym
podstawianiu dodatkowych rejestrów procesora
(pomocniczych) w sytuacji wystąpienia rozkazów
powodujących konflikt.
Przewidywanie skoków
• Do wykorzystania pełnej mocy obliczeniowej CPU
konieczny jest stały dopływ instrukcji do wykonania.
• W przypadku wystąpienia instrukcji warunkowej
nie wiadomo jak przebiegnie realizacja dalszej
części programu.
• Po rozstrzygnięciu warunku instrukcji typu „if”
(zazwyczaj w okolicach środka potoku) może się
okazać, że potok zawiera i przetwarza rozkazy
z niewłaściwej gałęzi kodu programu.
• Im dłuższy potok, tym więcej niewłaściwych
rozkazów może w nim wystąpić.
• Oczyszczenie potoku ze zbędnych instrukcji jest
czasochłonne i jest stratą czasu procesora.
• Występują dwa podstawowe podejścia:
• Przewidywanie dalszego biegu programu (Branch
Prediction);
• Podążanie wieloma ścieżkami rozgałęzienia (Multiple
Paths of Execution).
• Prawdopodobieństwo przewidzenia właściwej
gałęzi programu jest zawsze mniejsze od 1.
• Podążanie wieloma ścieżkami wymaga powielania
wielu modułów procesora, ponadto wielokrotne
zagnieżdżenia kodu szybko mogą wyczerpać każdą
dostępną ilość zasobów sprzętowych.
• Współczesne procesory w większości korzystają
z metody Branch Prediction.
Optymalizacja kodu programu
• Optymalizacja polega na próbie dopasowania kodu
programu do architektury i konstrukcji konkretnego
procesora (lub rodziny procesorów),
• Współczesne mikroprocesory projektuje się tak,
aby zmniejszać znaczenie optymalizacji kodu.
• Obecnie kod niezoptymalizowany często może być
wykonywany niewiele wolniej niż odpowiadający
mu kod zoptymalizowany.
Zarządzanie pamięcią
operacyjną
• Procesor musi przetwarzać dane przechowywane
w pamięci operacyjnej.
• Operacje wykonywane na pamięci mają charakter
dwukierunkowy (odczyt lub zapis).
• Zapis polega na przekazania słowa danych
do magistrali danych oraz jego adresu docelowego
na magistralę adresową.
• Odczyt polega na przekazaniu magistrali adresowej
adresu położenia żądanego słowa danych oraz
pobrania tego słowa danych z magistrali danych.
Magistrale adresowe w architekturze x86:
Typ procesora
Szerokość magistrali
procesowej
Ilość możliwej do zaadresowania
pamięci
16-bitowy
20-bitowa
1 MB
16-bitowy
24-bitowa
16 MB
32-bitowy
32-bitowa
4 GB
32-bitowy
36-bitowa
64 GB
64-bitowy
40-bitowa
1 TB
Tryby pracy procesora
Tryb rzeczywisty (Real Mode):
• Procesor 32-bitowy przełącza się w stan odwzorowujący
działanie jednostki 16-bitowej.
• Nie zapewnia ochrony pamięci przed jednoczesnym
wykorzystaniem przez inny proces.
• Nie zapewnia obsługi wielozadaniowości.
• Udostępnia 1 MB przestrzeni adresowej.
Tryb chroniony (Protected Mode):
• Zaprojektowany w celu ochrony procesów pracujących
w wielozadaniowym systemie operacyjnym.
• Umożliwia udostępnienie przestrzeni adresowej większej
niż 1 MB.
• Układy sprzętowe procesora (MMU) kontrolują
odwołania do pamięci operacyjnej.
• W procesorach obsługujących mechanizm stronicowania
tryb chroniony pozwala na całkowitą separację
procesów.
Tryb wirtualny procesora 8086 (Virtual 8086 Mode):
• Pozwala na uruchamianie programów przeznaczonych
dla trybu rzeczywistego w trybie chronionym.
• Każdy program widzi oddzielny wirtualny procesor 8086
pracujący w trybie rzeczywistym.
• Mechanizmy trybu chronionego kontrolujące dostęp
do zasobów i zapobiegające konfliktom pozostają
włączone.
Stronicowanie
• Stronicowanie (Paging) pozwala na ograniczenie
i kontrolę dostępu procesów do pamięci poprzez
użycie tzw. stron (mniejszych sekcji pamięci).
• Pozwala na przydzielenie każdemu procesowi
indywidualnej wirtualnej przestrzeni adresowej.
• Umożliwia wykorzystanie większej ilości pamięci
operacyjnej niż jest fizycznie dostępne w systemie
komputerowym.
Produkcja i podstawowe
parametry procesorów
Prawo Moore’a
• Gordon Moore (jeden z założycieli firmy Intel)
w 1965 r. zaobserwował, że ekonomicznie
opłacalna liczba tranzystorów w układach scalonych
podwaja się co około 18 miesięcy.
• Liczba ta była wielokrotnie korygowana ze względu
na występowanie różnych problemów fizycznych
i technicznych.
• Obecnie przyjmuje się, że liczba tranzystorów
w mikroprocesorach podwaja się co około 24
miesiące.
• Głównym powodem dla którego zachodzi prawo
Moore’a jest ciągły postęp technologiczny
w procesach produkcyjnych mikroprocesorów.
• Pomimo ciągłego rozwoju technologicznego
występują bariery fizyczne dla szerokości ścieżek
oraz przesyłania informacji w układach scalonych.
• Przewiduje się, że prawo Moore’a przestanie
zachodzić w niedalekiej przyszłości.
• Inna popularna wersja Prawa Moore’a (tak zwane
Rozszerzone Prawo Moore’a) mówi, że moc
obliczeniowa mikrokomputerów podwaja się
co około 24 miesiące.
Proces produkcyjny procesora
Etapy produkcji procesora z tranzystorami 3D
(litografia 22 nm stosowana przez firmę Intel)
1. Piasek kwarcowy:
• Podstawowym surowcem
(dwutlenek krzemu).
jest
piasek
kwarcowy
2. Oczyszczanie:
• Krzem musi zostać oczyszczony (podgrzewa się go w celu
utworzenia siatki krystalicznej w formie cylindra).
3. Cięcie i polerowanie:
• Monokrystaliczne cylindry krzemowe są przecinane
na wafle (plastry o grubości około 1 mm) i polerowane.
4. Lakierowanie:
• Na obracający się wypolerowany wafel nanoszona jest
emulsja światłoczuła.
5. Napromieniowanie:
• Emulsja jest wielokrotnie naświetlana (za pomocą
promieni UV i przy wykorzystaniu masek) oraz częściowo
usuwana.
• Następnie następuje trawienie chemiczne krzemu
(powstaje wtedy krzemowa baza tranzystorów).
6. Implementowanie:
• Ponownie nakłada się i naświetla emulsję światłoczułą,
a następnie wafel w odpowiednich miejscach
bombarduje się jonami (co zmienia jego właściwości
przewodzące) i usuwa pozostałą część emulsji.
7. Izolowanie:
• Tranzystor (pomarańczowy) powstaje na skutek
wielokrotnego powtarzanie kroków 5 i 6.
• Po utworzeniu tranzystor jest izolowany od innych
elementów za pomocą dwutlenku krzemu (przezroczysty
czerwony).
8. Galwanizowanie:
• Podczas galwanizacji tworzone są złącza tranzystorów.
• Nadmiar miedzi zostaje spolerowany.
9. Okablowanie:
• Do układu dodaje się okablowanie (połączenia pomiędzy
tranzystorami) zbudowane z kilku warstw metali.
10. Montaż:
• Oddzielony od wafla CPU łączy się ze złączem interfejsu
płyty głównej (zielony) i pokrywą odprowadzającą ciepło
(srebrny).
Rozmiar charakterystyczny
tranzystora
• Jest to parametr techniczny zaawansowania
procesu produkcyjnego oraz gęstości upakowania
tranzystorów w układach scalonych.
• Rozmiarem charakterystycznym tranzystora jest
nazywana minimalna długość kanału tranzystora.
• Im mniejszy rozmiar charakterystyczny tym większe
możliwe upakowanie i szybkość działania.
• Rozmiar charakterystyczny dla współczesnych CPU:
• AMD – obecnie 28 nm, 14 nm planowane w 2017 r.;
• Intel – obecnie 14 nm, 10 nm planowane w 2017 r.
Częstotliwość taktowania
• Taktowanie jest sposobem sterowania pracą układu
cyfrowego.
• Polega na generowaniu i dostarczaniu przez zegar
sygnału elektrycznego (zazwyczaj prostokątnego)
o określonej częstotliwości.
• Mikroprocesor wykonuje 1 podstawową operację
w każdym pojedynczym cyklu (takcie) zegara.
• Do wykonania pojedynczego rozkazu zazwyczaj
potrzebne jest wykonanie kilku podstawowych
operacji.
• Częstotliwość taktowania procesora (Clock Rate)
to podstawowy wskaźnik szybkości z jaką procesor
wykonuje podstawowe operacje.
• Częstotliwość taktowania jest wyrażona w Hercach
(Hz), czyli liczbie cykli przypadających na 1 sekundę.
• Porównywanie współczesnych mikroprocesorów
pod względem częstotliwości taktowania zazwyczaj
nie jest miarodajne.
• Częstotliwość taktowania współczesnych CPU:
• AMD – do 4,3 GHz;
• Intel – do 4,0 GHz.
Napięcie zasilające
• Właściwe napięcie zasilania wszystkich obecnych
procesorów jest dobierane automatycznie.
• Niewielkie podniesienie napięcia zasilającego zazwyczaj
poprawia nieco stabilność pracy procesora, ale
jednocześnie powoduje wzrost poziomu temperatury
struktury półprzewodnikowej mikroprocesora.
• Obwody zasilające jądro procesora są oddzielone
od obwodów zasilających magistrale.
• Układy wytwarzające napięcie zasilania dla CPU mogą
być montowane bezpośrednio na płycie głównej lub
jako dodatkowe moduły VRM (Voltage Regulator
Module).
Współczynnik TDP
• TDP (Thermal Design Power) to ilość wydzielanego
przez mikroprocesor ciepła, którą trzeba
odprowadzić za pomocą układów chłodzenia.
• Firma Intel rozumie TDP jako moc, którą procesor
pobiera i oddaje w postaci ciepła przy obciążeniu
realnymi programami.
• AMD rozumie TDP jako teoretyczną moc jaką CPU
mógłby pobierać i oddawać w postaci ciepła.
• Współczesne procesory posiadają mechanizmy
ograniczające w razie potrzeby pobór mocy.
Gniazdo procesora
• Początkowo mikroprocesory były wlutowywane
bezpośrednio na płytę główną.
• Uniemożliwiało to wymianę CPU na inny model.
• Gniazdo procesora jest to złącze na płycie głównej
przeznaczone do montażu procesora.
• Pełni ono rolę interfejsu pomiędzy procesorem
a pozostałymi podzespołami komputera.
• Dla danego typu gniazda mogą występować pewne
charakterystyczne cechy (np. kształt, napięcie,
częstotliwość taktowania magistrali systemowej).
• Gniazda procesora stosowane w komputerach
osobistych można podzielić na dwa typy:
• Slot (szczelina);
• Socket (gniazdo).
• Obecnie używa się gniazd typu socket.
• Procesor musi być zgodny z typem gniazda (między
innymi).
• Różnice pomiędzy gniazdami mogą być bardzo
subtelne.
• Niektóre gniazda posiadają wsteczną zgodność
z poprzednimi wersjami.
• Obecne gniazda procesorów są wyposażane
w mocowania typu ZIF (Zero Insertion Force).
Dodatkowe technologie
implementowane
w procesorach
Wielordzeniowość
• Procesor wielordzeniowy posiada więcej niż jeden
rdzeń fizyczny.
• Pierwsze wielordzeniowe procesory w architekturze
x86 zostały wprowadzone w 2005 r.:
• Seria AMD Opteron;
• Seria Intel Pentium Extreme Edition.
• Dwa sposoby tworzenia CPU wielordzeniowych:
• Integracja wielu rdzeni w jeden układ scalony.
• Oddzielne kości rdzeni są połączone w jednym
opakowaniu.
• Mogą być różne metody implementacji (np. rdzenie
mogą dzielić pamięć podręczną lub nie, mogą być
takie same lub różne).
• Przyrost wydajności procesora uzyskiwany poprzez
implementację dodatkowych rdzeni zależy w dużej
mierze od dostępnego oprogramowania.
Teraflops Research Chip
• 11.02.2007 r. Intel zaprezentował działający
wielordzeniowy CPU o nazwie Teraflops Research
Chip zbudowany z 80 rdzeni zintegrowanych
w jednym układzie scalonym.
• Jego rdzenie są prostsze od rdzeni stosowanych
w obecnych mikroprocesorach.
• Każdy rdzeń posiada 2 jednostki FPU.
• Rdzenie są połączone ze sobą za pomocą routerów
(każdemu rdzeniowi jest przypisany dedykowany
router).
• Został wyprodukowany w procesie technologicznym
65 nm.
• Zbudowany z około 100 mln. tranzystorów.
• Rozmiar kości to 274,5
Teraflops Research Chip
Częstotliwość
taktowania (GHz)
Napięcie
Teoretyczna wydajność
zasilające (V) (TFLOPS)
Pobór mocy (W)
3,16 GHz
0,95 V
1,01 TFLOPS
62 W
5,1 GHz
1,2 V
1,63 TFLOPS
175 W
5,7 GHz
1,35 V
1,81 TFLOPS
265 W
Pierwszy komputer, który przekroczył w testach
barierę 1 TFLOPS, to zbudowany w 1996 r. komputer
ASCI Red (około 10000 procesorów Pentium Pro
o częstotliwości taktowania 200 MHz, pobór mocy
około 500 kW).
Wielowątkowość
• Polega na możliwości jednoczesnego wykonywania
więcej niż jednego wątku sprzętowego na jednym
fizycznym rdzeniu.
• Implementacja firmy Intel to Hyper-Threading
Technology (zaprezentowana w 2002 r.).
• HTT polega na przypisaniu przez system każdemu
fizycznemu rdzeniowi dwóch wirtualnych rdzeni
logicznych i rozdzieleniu pomiędzy nie wątków
do wykonania (jeżeli jest to możliwe).
• Obecnie AMD nie implementuje odpowiednika
technologii HTT.
• Procesory AMD (od zaprezentowanej w 2011 r.
architektury Bulldozer) korzystają z technologii
Clustered Multi-Threading (CMT).
• CMT w wersji AMD polega na wykorzystaniu
do budowy CPU modułów (każdy moduł zawiera
dwie niezależne jednostki ALU i jedną 256-bitową
jednostkę FPU zbudowaną z połączenia dwóch
jednostek 128-bitowych).
• Każdy pojedynczy moduł jest traktowany jako
dwurdzeniowy ze względu na ALU.
• W zależności od rodzaju aktualnie wykonywanego
kodu moduł jest traktowany jako jednordzeniowy
lub dwurdzeniowy ze względu na FPU
• HTT jest odmianą technologii Simultaneous MultiThreading (SMT).
• Implementacja wielowątkowości typu SMT
dla mikroprocesorów AMD jest przewidziana
na 2017 r. (w architekturze Zen).
Mostek północny i południowy
• Mostek północny (Northbridge) i południowy
(Southbridge) są dwoma najważniejszymi układami
współpracującymi z procesorem.
• Procesor jest połączony z mostkiem północnym
za pomocą szyny systemowej (Front Side Bus, FSB).
• Mostek
północny
najczęściej
odpowiada
za komunikację CPU z pamięcią RAM, szybkimi
magistralami przeznaczonymi dla kart graficznych
(np. PCI-E) i mostkiem południowym.
• Czasami układ mostka północnego zawiera
zintegrowaną w nim kartę graficzną.
• AMD począwszy od serii procesorów Athlon64
(2003 r.) integruje pewne funkcje mostka
północnego (kontroler pamięci RAM) w CPU.
• AMD od 2011 r. w serii procesorów Accelerated
Processing Unit (APU) integruje układ graficzny
w CPU.
• Intel począwszy od układów architektury Nehalem
(2008 r.) integruje układy mostka północnego
w CPU.
• W architekturze Clarkdale (2010 r.) Intel integrował
układ graficzny i kontroler pamięci jako oddzielną
kość umieszczoną w jednym opakowaniu razem
z CPU.
• Począwszy od architektury Sandy Bridge (2011 r.)
Intel integruje układ graficzny, kontroler pamięci
i CPU w pojedynczej kości.
Instrukcje multimedialne
• Od 1997 r. Intel zaczął implementować w swoich
procesorach
zestawy
dodatkowych
rozkazów
multimedialnych (początkowo instrukcje MMX –
MultiMedia eXtensions, później SSE – Streaming SIMD
Extensions).
• Ostania dodana partia rozkazów ma numer SSE 4.2.
• AMD w 1998 r. zaczęło implementować własny
dodatkowy zestaw rozkazów multimedialnych 3DNow!
• W 2010 r. AMD wstrzymało implementację instrukcji
3DNow! w nowych modelach swoich CPU.
• Obecnie procesory AMD (w większości) mają
zaimplementowaną obsługę instrukcji MMX i SSE.
Automatyczne przetaktowywanie
• Od architektury Nehalem (2008 r.) Intel
w niektórych modelach procesorów implementuje
technologię automatycznego przetaktowywania
rdzeni nazywaną Turbo Boost.
• Turbo Boost automatycznie podwyższa lub obniża
częstotliwość taktowania poszczególnych rdzeni
CPU w zależności od warunków takich jak np.
aktualny pobór mocy ,współczynnik TDP oraz
maksymalna dopuszczalna częstotliwość zegara
taktującego.
• AMD w 2010 r. zaimplementowało w niektórych
swoich CPU technologię Turbo Core działającą
na podobnej zasadzie jak konkurencyjny Turbo
Boost.

Projektowanie Systemów Komputerowych

Related documents

Products

Support

Projektowanie Systemów Komputerowych

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib