Fächer

Betriebswirtschaftslehre
Biologie
Chemie
Deutsch
Englisch
Erdkunde
Erziehungswissenschaften
Ethik
Französisch
Geschichte
Informatik
- Biografien
- Facharbeiten
- Referate
Italienisch
Kunst
Latein
Mathematik
Musik
Philosophie
Physik
Politik
Psychologie
Rechtswissenschaften
Religion
Sozialwissenschaften
Spanisch
Sport

Programmiersprachen

Praktikums Facharbeit Inhaltsverzeichnis Einleitung Programmiersprachen Geschichte von C Programm Beispiel Programm Beispiel Source - Code [ZIP] Quellen Einleitung In...

4817 Worte in "deutsch" als "hilfreich" bewertet
Multimedia

1.1. Definition des Begriffes 'Multimedia' 1 1.2. EinsatzmÃ¶glichkeiten 1 1.2.1. Information, PrÃ¤sentation und Archivierung...

8597 Worte in "deutsch" als "hilfreich" bewertet
Electronic Commerce

Einleitung Definition Electronic Commerce: "Electronic Commerce ist jede geschÃ¤ftliche Transaktion, die per Telekommunikation durchgefÃ¼hrt wird. Das beginnt mit der Werbung und...

6535 Worte in "deutsch" als "hilfreich" bewertet

Digitale Filter

Inhaltsverzeichnis

1. Allgemeines 1

2. Filter mit "diskreter" Logik 1

2.1 Multiplizierer 1
2.2 AusfÃ¼hrung von digitalen Filtern ohne
RÃ¼ckfÃ¼hrung (Finite Duration Response - FIR) 5
2.2.1 Kaskadiertes FIR - Filter 8
2.2.2 Vollparallele Form eines FIR - Filters 10
2.3 AusfÃ¼hrung von digitalen Filtern mit RÃ¼ck -
fÃ¼hrung (Infinite Impulse Response - IIR) 11
2.3.1 Kaskadiertes IIR - Filter 12
2.4 gemultiplexte FilterbÃ¤nke 13

3. Digitale Filter mit Digitalen Signal -
prozessor IC's (DSP) 16

3.1 Allgemeine Features von DSP 16
3.2 DSP mit Harvard - Architektur 18
3.3 DSP mit DatenfluÃŸ - Methode 20
3.3.1 DatenfluÃŸmethode 20
3.3.2 NEC uPD7281 "Image Pipelined Processor" 23

Anhang Literaturverzeichnis 27

1. Allgemeines

Digitale Filter kÃ¶nnen entweder off - line ("Filterung" eines gespeicherten Datensatzes) oder on - line (Echtzeitverarbeitung der ankommenden DatensÃ¤tze) ausgefÃ¼hrt werden. Bei off - line Verarbeitung sind die AnsprÃ¼che an die Hardware gering, es kann problemlos ein herkÃ¶mmlicher Computer mit geeignetem Programm eingesetzt werden. Die on - line Verarbeitung wird bereits bei relativ geringen zu verarbeitenden Frequenzen zeitkritisch (bei 20kHz: Abtastung mit 40 kHz => 25 us Verarbeitungszeit fÃ¼r einen Abtastpunkt). Diese Geschwindigkeit ist aufgrund der umfangreichen Rechenoperationen fÃ¼r einen Abtastpunkt fÃ¼r einen herkÃ¶mmlichen uP nicht mehr erreichbar. Hier werden spezielle AusfÃ¼hrungen benÃ¶tigt.
FrÃ¼her wurde bei off - line Verarbeitung prinzipiell "diskrete" Logik verwendet, heute werden vielfach spezielle Prozessoren fÃ¼r digitale Signalverarbeitung verwendet.

2. Filter mit "diskreter" Logik

2.1 Multiplizierer

Zur Erreichung hoher Verabeitungsgeschwindigkeiten sind schnelle arithmetische Einheiten notwendig. Hierbei sind speziell die Multiplizierer beachtenswert, da sie meist auf mehrfaches Addieren zurÃ¼ckgefÃ¼hrt werden, und deshalb wesentlich mehr Rechenzeit benÃ¶tigen, als die Addierer.
Die einfachste MÃ¶glichkeit wÃ¤re ein Multiplizierer aus einem Addierer und Schieberegistern.

Bild 2.1 Addier - Schiebe - Multiplizierer

Bei diesem Aufbau wird mit Clock 1 der eine Faktor in einem Schieberegister bitweise weitergeschoben. Wenn an den Gattern eine 1 ansteht, wird zum Akkumulator (Ergebnis) der Wert des anderen Faktors dazuaddiert. Nach jedem Additions - oder Nichtadditionsvorgang wird der Akkumulator um eine Stelle nach rechts geschoben (Erniedrigung des Stellenwerts).
Dieser Multiplizierer ist zwar vom Aufbau her sehr einfach, aber sehr langsam.
Eine schnellere MÃ¶glichkeit ist der Array - Multiplizierer, der gÃ¤nzlich aus Addierern aufgebaut ist.

Bild 2.2 Array - Multiplizierer

Auch dieser Multiplizierer ist noch nicht sehr zeiteffizient, da er mit Ripple - Carry arbeitet, d. h. der am weitesten links befindliche Addierer liefert erst dann eine gÃ¼ltige Summe, wenn alle Addierer weiter rechts fertig sind.

Bild 2.3 Schnellerer Array - Multiplizierer
Dieser Multiplizierer arbeitet mit diagonalem Carry, sodass die Summen von niedrigeren Stufen gleichzeitig zu den Addierern auf den hÃ¶heren Stufen gelangen. Dieses Prinzip heiÃŸt Carry - Save und ist auch auf andere als Array - Multiplizierer anwendbar. Die hÃ¶chste Berechnungszeit ergibt sich hierbei entweder aus 8 Carry - Zeiten, oder 5 Summier - Zeiten, je nach dem welches lÃ¤nger dauert. Im Gegensatz dazu benÃ¶tigt der Multiplizierer von Bild 2.2 mindestens 2 x 5 Carry - Zeiten + 8 Summier - Zeiten.
Eine weitere MÃ¶glichkeit zum Aufbau eines Multiplizierers wÃ¤re eine Baum - Struktur, mit der sich die Anzahl der Summier - Zeiten stark verringern lieÃŸe. Bild 2.4 zeigt den prinzipiellen Aufbau eines solchen n x 16 Bit - Multiplizierers, wobei jedes Plus - Symbol n Bit reprÃ¤sentiert. Bei diesem Aufbau sind nur 4 Summier - Zeiten nÃ¶tig. Es wird hier die selbe Anzahl von Addierern verwendet, aber es arbeiten mehr parallel.

Bild 2.4 Multiplizierer mit Baum - Struktur

Bild 2.5 Realisierung eines 6 x 8 Bit - Multiplizierers
mit Baum - Struktur
Bild 2.5 zeigt die Realisierung eines 6 x 8 Bit - Multiplizierers mit Baum - Struktur, wobei die Carries reihenweise verarbeitet werden. Dadurch benÃ¶tigt jede Reihe die gesamte Carry - Ripple - Zeit. Da 4 Reihen vorhanden sind, wird fÃ¼r die gesamte Multiplikation 4 x die Carry - Ripple - Zeit einer Reihe benÃ¶tigt. Dadurch ist diese Methode nicht so effizient, wie die in Bild 2.3 gezeigte, auÃŸer wenn die Summier - Zeit sehr hoch ist. Es ist jedoch auch beim Multiplizierer mit Baumstruktur der Ãœbergang auf Diagonal - Carry mÃ¶glich.

Bild 2.6 Array - Multiplizierer mit Diagonal - Carry und
Baumstruktur

Diese Kombination von Baumstruktur und diagonale Weitergabe des Carrys ist die wahrscheinlich schnellste MÃ¶glichkeit einen Multiplizierer auszufÃ¼hren.
Die Diskussion der anderen MÃ¶glichkeiten des Aufbaus eines Multiplizierers ist aber trotz des eindeutigen Geschwindigkeitsvorteils der letztgenannten Methode notwendig, da der Aufwand an ICs bei den einzelnen Methoden stark unterschiedlich ist.
2.2 AusfÃ¼hrung von digitalen Filtern ohne RÃ¼ckfÃ¼hrung (Finite Duration Impuls Response - FIR)

Bild 2.7 Prinzipschaltbild eines Filters ohne RÃ¼ckfÃ¼hrung

Man kÃ¶nnte dieses Prinzipschaltbild praktisch direkt in eine Schaltung Ã¼bernehmen, es wÃ¤ren dann aber 6 Multiplizierer und 7 Addierer nÃ¶tig, was einen sehr hohen Hardware - Aufwand bedeuten wÃ¼rde. Dieses System wird spÃ¤ter noch beschrieben.
Die hardwaremÃ¤ÃŸig einfachste Struktur besteht aus einem ROM zur Speicherung der Koeffizienten, einem Schieberegister fÃ¼r die Amplitudenwerte, einem Multiplizierer und einem Addierer - Akkumulator.

Bild 2.8 Struktur, Programm und ZustÃ¤nde eines einfachen
Filters ohne RÃ¼ckfÃ¼hrung
Hierbei sind die letzten 6 digitalisierten Amplitudenwerte in einem Schieberegistersatz, bei dem jede Stufe ein ganzes Wort faÃŸt, gespeichert.
ZunÃ¤chst wird x(n - 6) mit dem Koeffizienten a_6 verknÃ¼pft. Das Ergebnis wird im Akkumulator abgelegt. Mit dem ersten Takt wird x(n - 6) aus dem Schieberegister herausgeschoben, und x(n - 5) steht am Multiplizierer an. Gleichzeitig wurde der aktuelle Amplitudenwert in das Schieberegister hereingenommen. x(n - 5) wird mit a_5 multipliziert und zum Akkumulator dazuaddiert. Mit dem nÃ¤chsten Takt wird das Schieberegister wieder um 1 weitergeschoben, wobei aber x(n - 5) nicht aus dem Register hinausgeschoben wird, sondern an den Anfang des Registers zurÃ¼ckgefÃ¼hrt wird. Dieser Vorgang findet nun solange statt, bis x(n)a_0 zum Akkumulator dazuaddiert und an die erste Stelle des Schieberegisters geschoben ist. Dann steht im Akkumulator der richtige Ausgangswert, und der nÃ¤chste Auswertezyklus kann beginnen.
In der Schaltung aus Bild 2.8 wurde aber noch keine RÃ¼cksicht auf die VerfÃ¼gbarkeit geeigneter Schieberegister genommen. Die hier dargestellte Methode wÃ¼rde entweder mehrere parallele 1 Bit Schieberegister mit einer relativ einfachen Logik benÃ¶tigen, oder ein RAM mit einer relativ komplizierten Logik. Es ist aber relativ einfach mÃ¶glich, auf einem IC tausende von seriell angeordneten Speicherzellen anzuordnen. Hierbei wÃ¼rde dann aber eine serielle Verarbeitung der einzelnen WÃ¶rter nÃ¶tig.

Bild 2.9. Schaltung aus Bild 2.8. mit rein serieller
Speicherung

In diesem Fall wÃ¤re jeder Amplitudenwert seriell gespeichert, obwohl es nur fÃ¼r x(n - 6) explizit dargestellt ist. Die Multiplikationsroutine sollte hierbei nach der Addier - Schiebe - Methode durchgefÃ¼hrt werden, da die Daten bereits in serieller Form vorliegen. Hierbei wÃ¼rden die Amplitudenwerte zur Ansteuerung der Register verwendet, da diese Faktoren ohnehin geschoben werden mÃ¼ssen. Diese Methode ist sehr einfach fÃ¼r positive Zahlen, benÃ¶tigt aber fÃ¼r vorzeichenbehaftete Zahlen, die nicht in 2er - Komplementdarstellung gespeichert sind eine relativ komplizierte Logik, weshalb meist die 2er - Komplement - Darstellung gewÃ¤hlt wird.
Wie bereits bei der Diskussion erwÃ¤hnt wurde, ist dieser Multiplizierer relativ langsam, weshalb diese Methode in dieser AusfÃ¼hrung bald an die Grenzen ihrer MÃ¶glichkeiten gelangt. Wenn die Schiebezeit pro Bit 100ns betrÃ¤gt (=> Addierzeit des oberen Addierers <100ns), die WortgrÃ¶ÃŸe 16 Bit betrÃ¤gt, und 16 Amplitudenwerte verarbeitet werden mÃ¼ssen (Filter 16.Ordnung), dann ist die hÃ¶chste verarbeitbare Datenrate

R=1 / (WortgrÃ¶ÃŸe x Ordnung des Filters x Schiebezeit)=
=10_9 / (16 x 16 x 100) = 39062.5 Hz

Mit dieser Datenrate kÃ¶nnten hÃ¶chstens Frequenzen bis etwa 20kHz verarbeitet werden (Abtasttheorem).
Die Datenrate kann vergrÃ¶ÃŸert werden, indem man Parallelverarbeitung einfÃ¼hrt.
Durch Verwendung mehrerer Schieberegister kann die Geschwindigkeit proportional vergrÃ¶ÃŸert werden, ebenso durch Verwendung mehrerer Arithmetikeinheiten (AE)

Bild 2.10 Struktur, Programm und ZustÃ¤nde eines
FIR - Filters mit 2 AE's
Diese Schaltung wÃ¤re nicht ganz doppelt so schnell wie die in Bild 2.9 dargestellte, wenn man die gleichen AE's voraussetzt. Hier wÃ¼rden x(n) bis x(n - 3) und x(n - 4) bis x(n - 6) getrennt und gleichzeitig bearbeitet, und anschlieÃŸend die beiden Ergebnisse addiert werden.

2.2.1 Kaskadiertes FIR - Filter

Die selbe Basisstruktur wie in Bild 2.10. kann auch fÃ¼r kaskadierte FIR - Filter verwendet werden. Bild 2.11 zeigt ein Beispiel fÃ¼r ein dreistufiges Filter, wobei jedes Filter 4. Ordnung ist, und Bild 2.12 zeigt die Realisierung mit einer AE.

Bild 2.11 Kaskadiertes FIR - Filter

Bild 2.12 Realisierung mit einer AE

Der einzige Trick, der hierbei benÃ¶tigt wird, ist das Retten der AusgÃ¤nge jeder Sektion, um sie zu geeigneter Zeit in das Schieberegister einzuspeisen.
FÃ¼r grÃ¶ÃŸere GeschwindigkeitsansprÃ¼che kann das Filter aus Bild 2.11 ebenfalls durch Parallelverarbeitung beschleunigt werden. Hierbei gibt es eine besonders ins Auge springende MÃ¶glichkeit: Die Realisation jeder Filterstufe mit einer eigenen AE.

Bild 2.13 Programm und ZustÃ¤nde fÃ¼r Filter aus Bild 2.12

Bild 2.14 Struktur, Programm und ZustÃ¤nde des Filters von
Bild 2.11 mit 3 AE's

2.2.2 Vollparallele Form eines FIR - Filters

Wie bereits in der Einleitung zu diesem Kapitel erwÃ¤hnt, gibt es die MÃ¶glichkeit, das Prinzipschaltbild unter Verwendung von 6 Multiplizierern und 7 Addierern bei einem Filter 6. Ordnung praktisch direkt zu Ã¼bernehmen.

Bild 2.15 Verwendung von N parallelen Zweigen fÃ¼r ein
Filter N - ter Ordnung

In diesem Fall ist keine Zirkulation der Amplitudenwerte nÃ¶tig, sodass das Schieberegister nur mehr als angezapfte VerzÃ¶gerungsleitung benÃ¼tzt wird. Wegen der Notwendigkeit dieser Anzapfungen verschwindet aber der Vorteil der LSI - Bausteine, die zwar sÃ¤mtliche Amplitudenwerte problemlos speichern kÃ¶nnen, aber nicht auch gleichzeitig ausgeben. Die Schieberegister kÃ¶nnen auch hier gleichzeitig bitweise arbeiten, sodass eine Addier - Schiebe - Multiplikation mÃ¶glich wird. Hierbei wÃ¤re es aber kaum ein zusÃ¤tzlicher Aufwand, wenn man alle Amplitudenwerte parallel speichert, und einen Schieberegistersatz mit voller Wortbreite verwendet, wodurch auch die Multiplizierer parallel arbeiten kÃ¶nnten (Array - Multiplizierer). Wenn man annimmt, dass die Multiplikationszeit zur Schiebezeit hinzuaddiert wird, wird noch zusÃ¤tzliche Zeit zum Addieren benÃ¶tigt. Diese zusÃ¤tzliche Zeit kann aber vermieden werden, indem man Buffer (in diesem Fall=Speicher) an den gekennzeichneten Stellen einfÃ¼gt. Wenn man annimmt, dass die Addierzeit exakt gleich der Multiplikationszeit ist, dann tritt dadurch nur eine VerzÃ¶gerung des Ausgangssignals um eine Abtastperiode ein.

2.3. AusfÃ¼hrung von digitalen Filtern mit RÃ¼ckfÃ¼hrung
(Infinite Impulse Response IIR)

Die AusfÃ¼hrung von IIR - Filtern unterscheidet sich von jener von FIR - Filtern nur sehr wenig. Bild 2.16 zeigt ein IIR - Filter, das die selbe Grundstruktur wie das FIR - Filter von Bild 2.9. benÃ¼tzt.

Bild 2.16 Struktur eines IIR - Filters mit einer AE

Die Gleichung, nach der dieses Filter arbeitet ist:

Hierbei wird wÃ¤hrend der ersten Multiplikation (Addier - Schiebe - Prinzip) das Wort y(n - 12) aus dem Schieberegister hinausgeschoben. WÃ¤hrend der nÃ¤chsten 11 Multiplikationen zirkuliert das Schieberegister, d.h. die am Ende herausgeschobenen Bits werden am Anfang wieder eingefÃ¼gt. Das Ergebnis y(n) ist nicht verfÃ¼gbar, solange nicht bx(n) berechnet ist. Deshalb darf wÃ¤hrend der Berechnung von bx(n) das Schieberegister nicht rotiert werden. Im letzten Schiebezyklus wird dann keine Berechnung mehr durchgefÃ¼hrt, sondern nur mehr y(n) in das Schieberegister hineingeschoben.
In typischen Anwendungen betrÃ¤gt die Abtastfrequenz 8kHz und die Abtastzeit 125us. Bei einer WortlÃ¤nge von 16 Bit werden 16 x (12 + 2) Taktzyklen fÃ¼r einen Abtastvorgang eines Filters 12.Ordnung benÃ¶tigt, was zu einer Taktfrequenz von etwa 2MHz fÃ¼hrt, die mit LSI - Bausteinen leicht zu bewÃ¤ltigen ist.

2.3.1 Kaskadierte IIR - Filter

Bild 2.17 zeigt das Prinzipschaltbild einer Kaskade von 3 Filtern 2. Ordnung, von denen jedes 2 Pole und 2 Nullstellen hat.

Bild 2.17 IIR - Filter als Kaskade 3er Filter 2.Ordnung

Bild 2.18 zeigt Struktur, Programm und ZustÃ¤nde einer Realisation dieses Filters mit 2 AE's. Die Struktur ist vergleichbar mit dem frÃ¼her gezeigten mit 1 Bit breiten Schieberegister und Addier - Schiebe Multiplizierer. Die Aufgabenstellung der beiden AE's ist so verteilt, dass eine die VorwÃ¤rts - Summen berechnet (AE2) und die andere die in das Schieberegister einzuspeisenden Summen (AE1).
Da die in das Schieberegister einzuspeisenden Daten vorhanden sein mÃ¼ssen, bevor die VorwÃ¤rtssummen endgÃ¼ltig berechnet werden kÃ¶nnen, folgen auf 2 Schiebezyklen 2 Zyklen, in denen nicht geschoben wird, sondern nur die AE's arbeiten. WÃ¤hrend dieser Zeit wird zunÃ¤chst das in das Schieberegister einzuspeisende Datum berechnet, und anschlieÃŸend unter Verwendung dieses Datums die VorwÃ¤rtssumme berechnet, die fÃ¼r die ersten beiden Filter im x_i - Register abgelegt wird, und fÃ¼r das letzte Filter an den Ausgang gelangt.
Dieses Filter benÃ¶tigt insgesamt 7 Schiebezyklen mit Berechnungen und 6 Zyklen, in denen nur gerechnet wird. Die reinen Schiebezyklen, in denen nur die x_0(n), x_1(n) und x_2(n) weitergeschoben werden, kÃ¶nnen wÃ¤hrend der zweiten reinen Berechnung stattfinden.

Bild 2.15 IIR - Filter von 2.17 mit 2 AE's

2.4. gemultiplexte FilterbÃ¤nke

Nur sehr selten sind in der Praxis so einfache Konfigurationen wie die hier gezeigten in Verwendung. Wesentlich hÃ¤ufiger sind FilterbÃ¤nke, die IIR oder FIR - Filter verwenden, wo mÃ¶glicherweise jedes Filter eine Kaskade oder eine parallele AusfÃ¼hrung ist. Desto mehr Filter gemultiplext werden kÃ¶nnen, desto grÃ¶ÃŸer ist der Vorteil, der durch die Verwendung von digitalen Filtern erzielt werden kann, da man speziell die Speicher leicht an die speziellen Erfordernisse der zusÃ¤tzlichen ZustÃ¤nde anpassen kann. Vorsicht ist hierbei nur geboten, wenn man zu viele verschiedene Funktionen mit einer Filtereinheit realisieren will, da dann die Kontrollogik schnell anwÃ¤chst.
Die Bilder 2.19 und 2.20 zeigen ein Beispiel der Realisation von 3 getrennten FIR - Filtern mit einer Filtereinheit.

Bild 2.19 Filter, die zu multiplexen sind

Bei der gezeigten Konfiguration wird der AE jeweils das passende Eingangsdatum zugefÃ¼hrt, und Ã¼ber den Distributor werden jeweils die richtigen Daten an die AusgÃ¤nge verteilt. Im Schieberegister zirkulieren jeweils die Daten aller 3 Filter.

Bild 2.20 Hardware - Konfiguration und Programm fÃ¼r
gemultiplexte FIR - Filter
3. Digitale Filter mit Digitalen Signalprozessor IC's
(DSP)

3.1 Allgemeine Features von DSP

Digitale Signalprozessoren mÃ¼ssen fÃ¼r Echtzeitverarbeitung einen sehr hohen Datendurchsatz haben, der grÃ¶ÃŸer ist als jener von herkÃ¶mmlichen Mikroprozessoren. Da aber die Taktraten bei Mikroprozessoren in der Regel bereits knapp am technologisch sinnvoll Machbaren liegen, stellt sich die Frage welche Mittel man anwenden kann, um einen DSP schneller zu machen?
Zum einen liegt die Antwort in der Architektur der DSP's. Diese Prozessoren werden immer mit einer relativ groÃŸen Wortbreite (16 oder 32 Bit) ausgefÃ¼hrt, und haben Fest - oder FlieÃŸkomma - Arithmetik bereits hardwaremÃ¤ÃŸig implementiert. Dadurch ist bereits eine gewisse Parallelverarbeitung von Informationen mÃ¶glich.
AuÃŸerdem werden sie oft mit einer Pipeline - Architektur gebaut, die zwar noch keine vollstÃ¤ndige Parallelverarbeitung ausmacht, aber immerhin garantiert, dass Arbeitsschritte, die nicht zwingend hintereinander ablaufen mÃ¼ssen, gleichzeitig erfolgen. Diese FÃ¤higkeit sei an folgendem Beispiel erklÃ¤rt: Um einen Befehl abzuarbeiten ist es notwendig, dass dieser erst einmal aus dem Programmspeicher in den Prozessor geladen wird (Instruction - fetch), dann entschlÃ¼sselt wird, was auszufÃ¼hren ist, (instruction - decode) und schlieÃŸlich muss der Befehl auch abgearbeitet werden (execution). Der Prozessor gewinnt an Geschwindigkeit, wenn er die FÃ¤higkeit besitzt. wÃ¤hrend der AusfÃ¼hrung eines Befehls den nÃ¤chsten bereits zu laden und zu dekodieren. Dieses Verfahren verwenden Ã¼brigens nicht nur DSP, sondern auch die Mikroprozessoren der letzten Generation (Intel 80386).
Eine weitere Methode zur Beschleunigung eines Prozessors ist die Implementierung der Harvard - Architektur. Auch diese stellt einen Schritt in Richtung Parallelverarbeitung dar. Dabei werden Programm und Daten in getrennten Bereichen gespeichert, und auch Ã¼ber eigene Busse gefÃ¼hrt. Allerdings fÃ¼hrt dieses Verfahren schnell zu hoher KomplexitÃ¤t der Hardware, weshalb oft folgender Weg beschritten wird: Innerhalb des Prozessors wird der Bus getrennt gefÃ¼hrt, auÃŸerhalb wird durch Multiplextechnik die doppelte Busstruktur auf eine einfache reduziert, um den Aufwand an extern erforderlicher Hardware gering zu halten. Welcher Architektur im konkreten Anwendungsfall der Vorzug zu geben ist, hÃ¤ngt davon ab, wie zeitkritisch die Applikation ist, bzw. wie weit Ã¶konomische Gesichtspunkte berÃ¼cksichtigt werden mÃ¼ssen. Der Zeitfaktor wird aber in der Regel dadurch gemildert, dass die meisten DSP's bereits internes RAM und ROM besitzen, das sie Ã¼ber die getrennten Busse ansprechen kÃ¶nnen. Ein wesentlicher Faktor zur ErhÃ¶hung der Arbeitsgeschwindigkeit ist die Implementierung eines Hardware - Multiplizierers, da die Multiplikation als typischer Befehl in signalverarbeitenden Algorythmen bei einer Realisierung Ã¼ber Software sehr viel Zeit in Anspruch nehmen wÃ¼rde. Ein moderner 16x16 Bit Hardware - Multiplizierer benÃ¶tigt zur Produktbildung etwa 100 bis 200ns, wÃ¤hrend selbst moderne Mikroprozessoren dafÃ¼r einige Mikrosekunden benÃ¶tigen. Wenn man bedenkt, dass etwa in einem digitalen Audiosystem zur Abarbeitung einfacher Filteralgorythmen maximal 30us zu VerfÃ¼gung stehen und dass dabei mehrere Multiplikationen sowie Additionen und Schiebeoperationen (neben Ein - Ausgabebefehlen) durchzufÃ¼hren sind, wird der Einsatz spezieller Prozessoren unentbehrlich, wenn man nicht auf eine "diskrete" Logik wie in Abschnitt 2 beschrieben zurÃ¼ckgreifen will.

Bild 3.1 Blockschaltbild eines gebrÃ¤uchlichen DSP IC's
mit Harvard - Architektur und Hardware Multiplizierer
(Texas Instruments TMS 32010)

Die bisher genannten Methoden zur VergrÃ¶ÃŸerung des Datendurchsatzes sind nicht unbedingt typisch fÃ¼r DSP's, sondern der Technologie von GroÃŸrechnern entlehnt. Die zweite Kategorie von MaÃŸnahmen, die einen Signalprozessor fÃ¼r eine bestimmte Aufgabe geeignet oder ungeeignet erscheinen lÃ¤sst, wird dadurch gesetzt, dass sein Anwendungsgebiet bekannt ist. Der Zugang dazu wird sowohl Ã¼ber Hard - als auch Software ermÃ¶glicht.
Von der Softwareseite erfolgt die ProblemlÃ¶sung Ã¼ber die Gestaltung des Befehlssatzes. Da der Prozessor ja nur fÃ¼r ein ganz bestimmtes Anwendungsgebiet gedacht ist, kann der Befehlssatz spezielle Instruktionen enthalten, die die Verarbeitung bestimmter Algorythmen begÃ¼nstigen. DarÃ¼ber hinaus kann eine Instruktion mehrere Operationen ausfÃ¼hren. Damit kann der fÃ¼r einen speziellen Anwendungsfall gedachte DSP unter UmstÃ¤nden mit einem einzigen Befehl das erreichen, wofÃ¼r ein herkÃ¶mmlicher Mikroprozessor ein ganzes Unterprogramm benÃ¶tigen wÃ¼rde. So kann z.B. bei einem Signalprozessor in einem einzigen Befehl ein gerade erstelltes Produkt zum Akkumulator addiert werden, das Multiplikanden - Register mit dem nÃ¤chsten Wert geladen und dieser Wert im Datenram auf die nÃ¤chste Seite kopiert werden. Alle drei Einzeloperationen sind bei der Realisierung eines Digitalfilters von grÃ¶ÃŸter Wichtigkeit, und die AusfÃ¼hrungszeit liegt bei einem DSP in der GrÃ¶ÃŸenordnung von etwa 200ns. AuÃŸerdem beschleunigen Bit - Testbefehle, die ein bestimmtes Bit in einem Wort testen kÃ¶nnen ohne vorher maskieren zu mÃ¼ssen, den Ablauf.
Das Wissen um das spezielle Einsatzgebiet erlaubt die entsprechende Gestaltung des Prozessor - Hardwareaufbaus. Die MÃ¶glichkeiten reichen hier vom Einsatz verschiedener ALU's fÃ¼r verschiedene Aufgaben, die dann gleichzeitig gelÃ¶st werden kÃ¶nnen Ã¼ber spezielle Register, die bestimmte Befehle abarbeiten, ohne dass die Daten dazu in den Akkumulator transportiert werden mÃ¼ssen, bis zu RÃ¼ckkopplungswegen, die bestimmte Befehle (z.B. multipliziere und akkumuliere) erst ermÃ¶glichen. Daneben kÃ¶nnen noch WiederholzÃ¤hler (fÃ¼r rekursive Algorithmen) und Barrelshifter (der Befehl enthÃ¤lt die Anzahl der Stellen, um die der Operand verschoben wird, und erspart damit mehrmaligen Aufruf eines Befehls, der nur imstande ist, um ein Bit zu verschieben) vorgesehen sein. Ein entsprechend groÃŸer RAM - Bereich auf dem Prozessorchip ermÃ¶glicht die sinnvolle Nutzung der getrennten Programm - und Datenbusstruktur, wobei auch hier der Befehlssatz den Datenaustausch zwischen Programm und Datenbus wirksam unterstÃ¼tzt. So kann mit einem einfachen Befehl ein Abschnitt des Programmspeichers in den Datenspeicher Ã¼bertragen werden. Filterkoeffizienten kÃ¶nnen damit in vergleichsweise groÃŸe externe Programm - RAM's (oder EPROM's) abgelegt werden und bei Bedarf in den kleinen internen Datenspeicher des Signalprozessors geholt werden, da die ALU oft nur Daten vom internen RAM direkt verarbeiten kann. Einige Hersteller bieten auch erweiterte Versionen an, bei denen ein schneller Analog - Digital - Wandler auf dem Chip integriert ist, was bei qualitativ weniger kritischen Anwendungen Vorteile bringen kann.

3.2 DSP mit Harvard - Architektur

Diese Art von DSP soll am TMS 320xx von TI dargestellt werden.

Das Blockschaltbild dieses Prozessors ist bereits in Bild 3.1 dargestellt.
Die wichtigsten Merkmale dieses Einchip - Computers sind: 200ns Instruktionszyklus, 32 Bit Arithmetikeinheit, 16x16 Bit Parallelmultiplizierer (benÃ¶tigt fÃ¼r eine Multiplikation nur einen Zyklus), 0..16 Bit Barrel - Shifter, 288 Byte Daten RAM (144x16), 3kByte Programm - Rom (1,5k x 16), die extern auf 8 kByte erweiterbar sind.
Dieser Prozessor arbeitet mit einer Harvard Architektur mit 2 getrennten 16 Bit - Bussen fÃ¼r Programm und Daten. Durch diese Struktur ist es mÃ¶glich, Befehle zeitlich Ã¼berlappend aufzunehmen und auszufÃ¼hren.

Architektur:

Das HerzstÃ¼ck des Prozessors ist eine schnelle Arithmetik - einheit, die aus einer 32 Bit - ALU, einem 16 Bit Shifter, dem 16x16 Bit Parallelmultiplizierer sowie einem 32 Bit Akkumulator besteht. Daten werden entweder aus dem RAM Ã¼ber den Shifter oder aus dem Produktregister P in die ALU geladen. Daten aus dem RAM mit einer Wortbreite von 16 Bit werden nach Schiebeoperationen mit Vorzeichenzusatz fÃ¼r Zweierkomplement - Arithmetik auf 32 Bit erweitert. Arithmetik - Operationen mit 32 Bit aus dem RAM werden auch durch eine Kombination spezieller Befehle, bei denen die Vorzeichenerweiterung im Shifter unterdrÃ¼ckt wird, unterstÃ¼tzt. Die ALU verfÃ¼gt auch Ã¼ber logische Operationsanwendungen fÃ¼r Steueranwendungen. Eine SÃ¤ttigungs - Ãœberlauf - Betriebsart dient zur Simulation von SÃ¤ttigungsereignissen in Signalverarbeitungssystemen. Der 32 Bit Akkumulator wird im Multiplexbetrieb auf den 16 Bit Datenbus umgeschaltet, damit die Resultate im RAM gespeichert werden kÃ¶nnen. Die hÃ¶herwertigen Akkumulatorwerte kÃ¶nnen auch mit einem vorgegebenen Offset gespeichert werden, um die Skalierung der Resultate zu ermÃ¶glichen.

Adressierungsarten:

Der Prozessor unterstÃ¼tzt 4 Adressierungsarten. Die erste ist die direkte Adressierung, sie erfolgt von einem 7 Bit - Feld der Instruktion und einem Page - Register.Der Speicher ist fÃ¼r die direkte Adressierung in 128 Wort - Seiten aufgeteilt.
Die zweite ist die indirekte Adressierung, bei der eines der 2 Hilfsregister (AR) Verwendung findet. Diese Register unterstÃ¼tzen die automatischen Inkrement - /Dekrement - Operationen parallel zu SpeicherbezÃ¼gen und Arithmetikoperationen. Daraus ergeben sich zwei verschiedene Adressierungsarten. Die Auswahl des AR - Registers als Quelle fÃ¼r eine Adresse wird durch das ARP - Register festgelegt. Der Datenspeicher ist so aufgebaut, dass ein Wort auf die nÃ¤chsthÃ¶here Adresse vom derzeitigen Speicherplatz in einem Maschinenzyklus dupliziert werden kann, wÃ¤hrend andere Operationen parallel ablaufen. AuÃŸerdem sind einige direkte Operationen mÃ¶glich, bei denen Teile des Instruktionsworts als Daten Verwendung finden. Aus diesem Grund kÃ¶nnen Konstanten wie z.B. Filterkoeffizienten Teil des Programms sein.
Da Programm - und Datenbus getrennt sind, verfÃ¼gt der Programm - ZÃ¤hler Ã¼ber einen eigenen Inkrementer und einen 4 - Ebenen - Stack fÃ¼r die Unterprogrammsteuerung.

Software:

Der Prozessor verwendet 16 und 32 Bit Instruktionen. Bei Unterprogrammen und Interrupts wird der gesamte Maschinen - Kontext gesichert. Verzweigungen kÃ¶nnen bei den meisten arithmetischen Bedingungen, bei Ãœberlauf, bei Register = 0 und ohne Bedingung erfolgen. Es ist ebenfalls mÃ¶glich, den Akkumulator - Inhalt als Programm - ROM - Adresse zu verwenden, um an Konstanten, die im ROM gespeichert sind, zu gelangen, oder zum Unterprogrammaufruf bei datenabhÃ¤ngigen VerarbeitungsvorgÃ¤ngen. Der Prozessor ist zur UnterstÃ¼tzung von 2 Arten der Programm - Speicher - Operationen konfiguriert. Die erste Konfiguration (TMS320M10) besitzt ein Programm - ROM auf dem Chip, und eignet sich daher fÃ¼r Einchip - Anwendungen mit hoher StÃ¼ckzahl. Eine Kombination von internem ROM (1,5 k Worte) und externem Programmspeicher (2,5 k Worte) ist ebenfalls mÃ¶glich, und kann z.B. bei Systemen mit festen Kernroutinen und unterschiedlichen Anwendungs - System - Konfigurationen verwendet werden. Die zweite AusfÃ¼hrung (TMS 32010) unterstÃ¼tzt 4 k Worte externen Programmspeicher und unterdrÃ¼ckt das interne ROM. Diese AusfÃ¼hrung ermÃ¶glicht, dass das Benutzer - Programm in einem externen 4 k Speicher untergebracht ist, und die Entwicklungssystem - Software in dem Programm - ROM auf dem Chip. Daher kann dieses Bauelement nicht nur zur UnterstÃ¼tzung der Eigen - Emulation, sondern auch als das eigene Entwicklungssystem verwendet werden. Das Interface des externen Programmspeichers arbeitet mit der selben Geschwindigkeit, wie das interne ROM, wodurch Echtzeit - Entwicklung und - AusfÃ¼hrung mÃ¶glich ist.
Ein - /Ausgangsoperationen werden Ã¼ber einen parallelen 16 Bit Bus ausgefÃ¼hrt, auf dem 8 KanÃ¤le definiert sind. Der Prozessor kann E/A - Operationen mit einer Rate von 40 MBaud ausfÃ¼hren. Ein Polling - Eingang ermÃ¶glicht softwaremÃ¤ÃŸige E/A - Steuerung, auÃŸerdem ist ein Interrupt - AnschluÃŸ fÃ¼r Hardware E/A und Multitasking vorgesehen.

Chip

Hergestellt wird der Prozessor in einem 3um Silizium - Gate - NMOS - PozeÃŸ. Er umfaÃŸt eine ChipflÃ¤che von 43,81 mm_2. Die Bausteine sind in einem 40poligem DIL - GehÃ¤use untergebracht und weisen eine Verlustleistung von 950mW auf. Bei einer maximalen Taktfrequenz von 20MHz betrÃ¤gt die Befehls - Rate 5 Millionen Instruktionen/s. Verschiedene Testarten sind zur ProduktionsÃ¼berwachung und Ausbeuteanalyse vorgesehen. FÃ¼r PrÃ¼fzwecke und ZuverlÃ¤ÃŸigkeitsanalysen sind Prozessor, Datenspeicher und PROM auf dem Chip getrennt ansprechbar.

3.3 DSP mit DatenfluÃŸ - Methode

Der bisher besprochene 320xx ist trotz verbesserter Architektur ein Von - Neumann - Computer, bei dem ein Zyklus das Senden der Adresse, Empfangen des Datums, EntschlÃ¼sseln und Verarbeiten umfaÃŸt. Der hier beschriebene uPD7281 ("Image - Pipelined - Processor") verwendet die DatenfluÃŸ - Methode.

3.3.1 DatenfluÃŸmethode

Der Unterschied in der Arbeitsweise eines Computers, der die DatenfluÃŸmethode anwendet sei an einem einfachen Beispiel dargestellt; der Berechnung des folgenden Ausdrucks:

Y = AxB + CxD

Ein von Neumann Computer berechnet zunÃ¤chst beide Produkte, die er anschlieÃŸend addiert (Bild 3.2). Hierbei ist nicht einzusehen, warum er eigentlich die beiden Multiplikationen Y1 = AxB und Y2 = CxD nicht gleichzeitig ausfÃ¼hrt.

Bild 3.2 FluÃŸdiagramm einer Berechnung mit einem
Von - Neumann - Computer

Ein DatenfluÃŸ - Computer ermÃ¶glicht diese Art von Parallel - Operationen. Er verfÃ¼gt Ã¼ber eine Anzahl datengetriebener Arithmetik - Einheiten, die die Operationen beginnen, sobald Daten einlangen. Dieser Vorzug ermÃ¶glicht den asynchronen Betrieb jeder Arithmetik - Einheit. ZusÃ¤tzlich zu diesen Arithmetik - Einheiten besitzt der DatenfluÃŸ - Computer einen FluÃŸ - Controller, dessen Aufgabe es ist zu bestimmen, wohin welche Daten gesandt werden sollen. Die Daten selbst sind mit einer ID (Identifikation) versehen und bezeichnen ihren Ursprung.

Bild 3.3 DatenfluÃŸ - Methode

Aus diesem Grund ist es nicht erforderlich, die Instruktionen durch das Programm zu beschreiben, und es ist nicht nÃ¶tig, die Reihenfolge der Abarbeitung anzugeben. Es muss lediglich der FluÃŸ der zu verarbeitenden Daten beschrieben werden.
Da die FluÃŸdiagramme fÃ¼r Von - Neumann - Computer weniger geeignet sind, DatenflÃ¼sse und Parallelverarbeitung innerhalb eines Programmes auszudrÃ¼cken, werden sogenannte Flowgraphs_*) angewendet, um solche Programme schematisch
_ *) Flowgraphs bestehen aus Knoten, die den Operanden eines Ausdrucks entsprechen (den auszufÃ¼hrenden Befehlen) und Richtungssegmenten, oder "arcs", die den DatenflÃŸ bezeichnen. Flowgraphs bringen weniger eine sequentielle Abarbeitung zum Ausdruck, als vielmehr die Parallelverarbeitung bestimmter Prozesse. Die DAten, die zwischen den Knoten flieÃŸen werden als Token bezeichnet. Jene Information, die die Hardware steuert, wird den Token hinzugefÃ¼gt, sobald sie durch die verschiedenen Hardware - Stufen flieÃŸen
darzustellen. Der Flowgraph fÃ¼r die Berechnung von

Y = AxB + CxD

ist in Bild 3.4 dargestellt.

Bild 3.4 Flowgraph einer Berechnung mit einem DatenfluÃŸ -
Computer

Hier wird veranschaulicht, dass die beiden Operationen fÃ¼r Y1 = AxB und Y2 = CxD parallel ausgefÃ¼hrt werden. Der Unterschied zu einem Von - Neumann - Computer wird noch augenfÃ¤lliger, wenn die Instruktionen tatsÃ¤chlich auf einem DatenfluÃŸ - Computer ausgefÃ¼hrt werden. Um in einem Von - Neumann - Computer eine Instruktion ausfÃ¼hren zu kÃ¶nnen, muss das Objekt - Programm zunÃ¤chst von jener Stelle des Speichers ausgelesen werden, an der es abgelegt wurde. Die abgerufene Instruktion wird decodiert, und die fÃ¼r die AusfÃ¼hrung erforderlichen Daten werden zusammengestellt. Ein GroÃŸteil der AusfÃ¼hrungszeit fÃ¤llt damit dem Speicherzugriff zum Opfer. Daher ist die traditionelle Computer - Architektur fÃ¼r Hochgeschwindigkeitsverarbeitung nicht ideal. Im DatenfluÃŸ - Computer werden dagegen, sobald das Objekt - Programm gesetzt ist, die Instruktionen ausgefÃ¼hrt, sobald die nÃ¶tigen Daten anstehen.
Als weiteres Beispiel sei die logische UND - VerknÃ¼pfung zweier Daten angefÃ¼hrt. Hier nimmt man an, dass die AusfÃ¼hrungszeit eines herkÃ¶mmlichen Von - Neumann - Computers gleich sei mit der eines DatenfluÃŸ - Computers (von den bereitgestellten Daten ausgehend) Bild 3.5 zeigt, dass auch hier der DatenfluÃŸ - Computer den herkÃ¶mmlichen Computer bei weitem Ãœbertrifft.

Bild 3.5 Zeitdiagramm fÃ¼r einen Von - Neumann - und einen
DatenfluÃŸ - Computer

Ein weiterer Vorzug von Computern, die sich der DatenfluÃŸmethode bedienen, ist der hohe Ãœberschneidungsgrad der abgearbeiteten Operationen. WÃ¤hrend beispielsweise ein ProzeÃŸ ausgefÃ¼hrt wird, kann gleichzeitig die Zusammenstellung von Daten fÃ¼r den nÃ¤chsten ProzeÃŸ ablaufen. Befinden sich diese Daten in einem Speicher, kann die effektive Zugriffszeit nach auÃŸen hin nahezu auf Null gesenkt werden.

Bild 3.6 ProzessausfÃ¼hrungen in einem DatenfluÃŸ - und
einem Von - Neumann - Computer

Zusammenfassend kenn ein DatenfluÃŸ - Computer, verglichen mit einem Von - Neumann - Computer die Anzahl der Speicherzugriffe drastisch reduzieren, und die Zugriffszeit besonders effektiv nutzen.

3.3.2 NEC uPD7281 "Image Pipelined Processor"

Der DatenfluÃŸ - Computer in Bild 3.2 enthÃ¤lt mehrere Arithmetik - Einheiten. Wird diese Vielzahl von Einheiten in einem einzelnen Bauteil zusammengefaÃŸt, bedeutet das eine betrÃ¤chtliche Steigerung der Verarbeitungsgeschwindigkeit. Der FluÃŸcontroller in einem solchen Baustein mÃ¼sste aber Ã¼ber alle MaÃŸen komplex sein; da jede Einheit nur eine spezifische Operation ausfÃ¼hrt, ist bei komplizierteren Operationen eine entsprechend hohe Anzahl solcher Einheiten beteiligt. ZusÃ¤tzlich weist das System einen weiteren Schwachpunkt auf: auch wenn viele Einheiten zum Einsatz kommen, ist das Risiko sehr groÃŸ, dass durch Datenkonzentration an einer Arithmetik - Einheit die Verarbeitung zusammenbricht. Aus diesem Grund findet im uPD7281 eine einzige universelle ALU Verwendung.
Im vorher beschriebenen Computer ist jeder Einheit eine bestimmte Aufgaabe zugedacht. Welche Einheit angesprochen wird, hÃ¤ngt vom Identifizier - Feld des Token ab. Im Fall des uPD7281 mÃ¼ssen jedoch die Daten, die die Art der Operation bestimmen, im Token enthalten sein. Der an die ALU kommende Token enthÃ¤lt daher einen Operationscode. Weiters kann der in Bild 3.3 gezeigte Flow - Controller in folgende vier BlÃ¶cke gegliedert werden:

Link Table: Checkt die IDs der ankommenden Token und leitet den nÃ¤chsten ID - Wert und die OP - Code Adresse zum Token
Function Table: FÃ¼gt dem Token einen OP - Code hinzu
Data Memory: Steuert die Daten, die zwei Token fÃ¼r eine bestimmte Operation zusammengetragen haben
Queue: Steuert den Eingang der Token zu den Verarbeitungseinheiten

Bild 3.7 Blockschaltbild des uPD7281

Wenn die Token die erwÃ¤hnten BlÃ¶cke durchlaufen, werden ihnen Daten hinzugefÃ¼gt und einige Token zu Einzel - Token zusammengefaÃŸt. AnschlieÃŸend gelangen sie in die Verarbeitungseinheit oder den Ausgangscontroller. Das Format der den uPD7281 verlassenden Token (entweder Ã¼ber den Ausgangscontroller oder Ã¼ber die Verarbeitungseinheit zur Link - Table) ist gleich dem Format jener Token, die als Eingangsinformation an den Eingangscontroller gelangen. Alle diese Konzepte sind in Bild 3.7 dargestellt. Durch den pipelineartigen DatenfluÃŸ zwischen den FunktionsblÃ¶cken wird die Weiterleitung der Daten zwischen den BlÃ¶cken vereinfacht. Jeder dieser Link - Table -, Function - Table - und Data - Memory - BlÃ¶cke ist im RAM konfiguriert, sodass Programme einfach modifiziert werden kÃ¶nnen, indem die Inhalte dieser Speicher neu geschrieben werden. Diese Methode wird auch programmierbare Pipeline - Methode genannt.
Obwohl der uPD7281 nur eine einzige Arithmetik - Einheit besitzt, kÃ¶nnen mehrere Prozesse glechzeitig ablaufen. Da der externe Speicherzugriff, anders als bei Von - Neumann - Computern, nur aus dem Lesen und Schreiben von Daten besteht, kann die Gesamtanzahl von Speicherzugriffen auch bei dieser Realisation eines DatenfluÃŸ - Computers drastisch gesenkt werden. AuÃŸerdem ist durch die Parallelverarbeitung die Speicherzugriffszeit als Teil der Bearbeitungszeit nahezu nicht mehr erkennbar.

Funktionsbeschreibung

Wie Bild 3.7 zeigt, besteht die ringfÃ¶rmige Pipeline aus 5 FunktionsblÃ¶cken:
- Link Table (LT)
- Function Table (FT)
- Data Memory (DM)
- Queue (Q)
- Processing Unit (PU)
Der durch den Input Controller (IC) einlangende Token wird an die Link - Table weitergefÃ¼hrt und im Pipeline - Ring so oft als nÃ¶tig bearbeitet. Ist diese Bearbeitung abgeschlossen, so wird der Token im Output Queue abgestellt und Ã¼ber den Output Controller (OC) zum Ausgang weitergefÃ¼hrt.
Bevor irgendeine Bearbeitung beginnt, lÃ¤dt der Host - Prozessor den Objekt - Code in die Link - Table und die Function Table des uPD7281 unter Verwendung speziell formatierter Eingangs - Token. Zu diesem Zeitpunkt kÃ¶nnen auch Konstanten zur Abspeicherung an den Datenspeicher gesandt werden. Die Inhalte der Link - Table und der Function - Table sind eng verwandt mit der grafischen Darstellung einer Berechnung. Wenn ein Rechenprozess grafisch dargestellt wird, zeigt er gewÃ¶hnlich einen gerichteten DatenfluÃŸ. In einer derartigen Darstellung bedeuten die BÃ¶gen (Ecken, Verbindungen usw.) den Eintritt in die Link - Table. Ein Knoten im grafischen DatenfluÃŸ bezeichnet eine Operation. Die Art der Operation wird zusammen mit der Identifikations - Information Ã¼ber den austretenden Bogen in der Function - Table angegeben.
Da der uPD7281 in einem Multiprozessorsystem kaskadiert werden kann, muss ihm wÃ¤hrend des Reset eine Modul - Nummer zugeteilt werden. Wenn nun wÃ¤hrend des normalen Betriebs ein Token zum Input - Controller gelangt, dann entscheidet dieser anhand der Information im Modul - Nummer - Feld des ankommenden Token, ob er ihn akzeptiert, oder nicht. Wenn die Modul - Nummer des Token von der des uPD7281 abweicht, wird der Token Ã¼ber den Output - Controller wieder nach auÃŸen geschickt. Besitzt der Token die selbe Modul - Nummer,

Bild 3.7 Kaskadierung von uPD7281 (maximal 14)

entfernt der Input - Controller das Modul - Nummern - Feld, und schickt den verbleibenden Teil des Token in die Link - Table zur Weiterverarbeitung. Sobald ein Token in die Pipeline eintritt, indem er Zugang zur Link - Table erhlaten hat, benÃ¶tigt er 7 Pipeline - Clockzyklen, um den Ring einmal zu durchlaufen. Je einen Pipeline - Zyklus benÃ¶tigen die Link - Table, die Function - Table und das Data - Memory, um einen Token zu bearbeiten; zwei Pipeline - Zyklen beanspruchen der Queue und die Processing - Unit. Die Queue und die Processing - Unit sind aus zweistufigen Pipelines aufgebaut. Wenn sich sieben Token gleichzeitig in der Ring - Pipeline befinden, ist diese voll besetzt, und hÃ¶chstmÃ¶gliche Parallelverarbeitung findet statt.
Wenn ein Token durch alle FunktionsblÃ¶cke des uPD7281 flieÃŸt, Ã¤ndert sich dessen Struktur gewaltig. Ein innerhalb der Ring - Pipeline flieÃŸender Daten - Token besitzt mindestens ein 7 Bit breites Identifizier - Feld (ID), und ein 18 Bit breites Datenfeld. Das Identifizier - Feld dient als Zugriffsadresse auf das Link - Table - Memory. Wenn ein Token auf das LT - Memory zugreift, wird dessen ID - Feld durch ein im LT - Memory gespeichertes ID - Feld ersetzt.
Das Datenfeld eines Token besteht aus einem Control - Bit, Vorzeichen - Bit und 16 Bit Daten. Ein Token kann bis zu zwei Datenfelder sowie je nach Bedarf auch noch ein OP - Code - Feld besitzen.

Prozessoreigenschaften

Schnelle Datenverarbeitung

Die hier verwendete Architektur ist besonders geeignet zur schnellen Handhabung von iterativen Operationen, wie sie zum Beispiel in der Bildverarbeitung vorkommen. Bei bisherigen Prozessoren, die nach dem Pipeline - Verfahren arbeiteten, waren die ausfÃ¼hrbaren Operationen durch die Hardware bereits festgelegt. Im uPD7281 kÃ¶nnen alle Operationen im User - Programm beliebig geÃ¤ndert werden, auÃŸerdem kÃ¶nnen mehrere Prozesse gleichzeitig ablaufen.

Schnelle Arithmetik - Operationen

Der uPD 7281 benÃ¶tigt fÃ¼r alle Operationen (einschlieÃŸlich Multiplikation) eine Verarbeitungszeit von 200ns (bei 10MHz), was einer Arbeitsgeschwindigkeit von 5MIPS (Millionen Instruktionen pro Sekunde) entspricht.

Problemlose Multiprozessor - Konfiguration

Die Hochgeschwindigkeitsverarbeitung lÃ¤sst sich durch den Einsatz mehrerer uPD7281 noch verbessern. Hierbei ist die einfache Zusammenschaltung (vergleiche Bild 3.8) besonders gÃ¼nstig.

Schnelle Daten I/O

In einer Multiprozessor - Konfiguration stellt oft der Datenbus den leistungsbegrenzenden Engpass dar. Um dies Auszuschalten verwendet der uPD7281 getrennte Ein - und Ausgangsleitungen und erreicht so wesentlich verbessete Ãœbertragungsraten. Eine asynchrone Handshaking - Methode auf 2 Leitungen verringert hierbei den externen Schaltungsaufwand wesentlich.
Anhang: Literaturverzeichnis

Theory and Application of Digital Signal Processing
Lawrence R. Rabiner
Bernard Gold
Verlag: Prentice - Hall Inc.

32 Bit Mikrocomputer fÃ¼r Signalverarbeitung und
Prozessteuerung
P. von Bechen
TI Sonderdruck aus Elektronik 22 / 5.11.1982

DSP: Ein zugeschnitzter uP
J. Thoma
F. Pavuza
ES 6 / Juni 1986

Signalprozessor fÃ¼r die Bildverarbeitung
R. Hell
ES 6 / Juni 1986

5752 Worte in "deutsch" als "hilfreich" bewertet

Programmiersprachen

Multimedia

Electronic Commerce

Digitale Filter