Fächer

Betriebswirtschaftslehre
Biologie
Chemie
Deutsch
Englisch
Erdkunde
Erziehungswissenschaften
Ethik
Französisch
Geschichte
Informatik
- Biografien
- Facharbeiten
- Referate
Italienisch
Kunst
Latein
Mathematik
Musik
Philosophie
Physik
Politik
Psychologie
Rechtswissenschaften
Religion
Sozialwissenschaften
Spanisch
Sport

Datenanalyse

1. Abgrenzen der Miniwelten Datenmodellierung heiÃŸt Umsetzen der Wirklichkeit auf die Ebene der Datenverarbeitung. Ein Datenmodell als Abbild der gesamten realen Welt eines...

1796 Worte in "deutsch" als "hilfreich" bewertet
Datenbanken

1. Allgemeines: IntegritÃ¤t = Korrektheit der Daten einer Datenbank IntegritÃ¤tsbedingungen gelten im Gegensatz zu den Sicherheitsbedingungen fÃ¼r ganze...

1376 Worte in "deutsch" als "hilfreich" bewertet
Datenerfassung

1.0. Definition Datenerfassung ist der Vorgang, bei dem Daten erstmalig manuell aufgezeichnet werden, um sie maschinell lesbar zu machen. 1.1. Datenermittlung Bei...

1834 Worte in "deutsch" als "hilfreich" bewertet

Dateistrukturen

Eine Datei besteht aus einer Ansammlung von DatensÃ¤tzen ( Records). Eines der Hauptelemente im File-System ist die Organisation und die Struktur der DatensÃ¤tze. Nun mÃ¶chte ich die logische Struktur der Dateien behandeln.

Bei der Wahl der Dateistruktur sind folgende Kriterien wichtig:

Schneller Zugriff

Leichtes Ã„ndern und Aufbessern

Geringer Platzverbrauch

Einfache Wartung

Hohe ZuverlÃ¤ssigkeit

Die PrioritÃ¤t dieser Kriterien hÃ¤ngt mit den Applikationen zusammen, fÃ¼r die die Datei benutzt wird. Wenn zum Beispiel eine Datei im Hintergrund (Batch) bearbeitet wird, bei der alle Records jederzeit benÃ¼tzt werden, ist der schnelle Zugriff auf einen einzelnen Record nicht von hoher Bedeutung. Bei einer CD-ROM, die niemals geÃ¤ndert werden kann ist der 2. Punkt nicht von Bedeutung.

Es gibt sehr viele Dateistrukturen, so dass ich nur die fÃ¼nf wichtigsten behandeln will. Die meisten Strukturen in den derzeit bekannten Systemen werden nach diesen fÃ¼nf Typen aufgebaut.

Das Pile (Haufen, in einer Kette)

Die sequentielle Datei

Die index-sequentielle Datei

Die indexierte Datei

Die direkte oder gehashte Datei

Das Pile

Das Pile ist die einfachste Struktur, die man verwenden kann. Hier werden die Daten in der Reihenfolge gespeichert, in der sie hineinkommen. Dies sieht so aus:

Jeder Record besteht aus einen Satz der gespeichert wurde. In dieser Struktur ist es einfach die Daten zu sammeln und zu speichern. Die DatensÃ¤tze kÃ¶nnen verschiedene Inhalte in irgendeiner Reihenfolge enthalten. Jedes Feld sollte selbstbeschreibend sein und den Feldnamen und einen Wert enthalten. Die LÃ¤nge eines Feldes wird durch einen Begrenzer angegeben, der vom Programm als untergeordnetes Feld angesehen wird und einen vorgegebenen Wert besitzt.

In dieser Art gibt es keine Struktur. Deshalb wird der Dateigriff durch eine lange Suchprozedur erschwert. Wenn man einen bestimmten Record finden will, muss man in jeden Record sehen und den Inhalt mit dem gesuchten vergleichen bis man ihn gefunden hat. Wenn man verschiedene SÃ¤tze mit dem gleichen Inhalt sucht, muss man die ganze Datei durchsuchen.

Dir Pile Dateien werden nicht sehr oft angewendet. man verwendet sie nur, wenn man Daten vor dem Verarbeiten speichert, oder wenn Daten nur schwer zu organisieren sind. Das Pile File nutzt den Platz gut, wenn die Daten in GrÃ¶ÃŸe und Struktur variieren.

Die sequentielle Datei

Die sequentielle Datei ist Die Form, die am hÃ¤ufigsten benutzt wird. Ein Datensatz(Record) wird in verschiedene Felder aufgeteilt. Hier wird ein fixes Format fÃ¼r die Felder benutzt. Alle Felder haben dieselbe LÃ¤nge und haben auch eine vorgegebene Reihenfolge. Man muss nur noch die Werte nur noch eingeben. Die Namen der Felder und die LÃ¤nge sind ein Teil der Datei und mÃ¼ssen nicht extra gespeichert werden.

Ein spezielles Feld, normalerweise das erste, wird als SchlÃ¼sselfeld benutzt. Das SchlÃ¼sselfeld identifiziert den Datensatz. Das SchlÃ¼sselfeld ist fÃ¼r alle DatensÃ¤tze verschieden, so dass man immer eine eindeutige Nummer als SchlÃ¼ssel besitzt. die DatensÃ¤tze werden noch dem SchlÃ¼sselfeld sortiert. Bei einem Text-schlÃ¼ssel sind die DatensÃ¤tze alphabetisch sortiert und bei einem numerischen nach den Zahlen.

SchlÃ¼ssel Felder

(Records)

Die sequentiellen Dateien werden Ã¼blicherweise fÃ¼r Hintergrundoperationen benutzt und sind auch die beste Version fÃ¼r die se Operationen. Mit der sequentiellen Dateistruktur kann man auf BÃ¤nder und auf Platten gleich gut speichern. FÃ¼r Ã„nderungen bittet diese Struktur nur geringe Leistung. Bei einem zugriff auf die Daten muss man das ganze File nach einem gleichen SchlÃ¼ssel durchsuchen. Diesen Zugriff kann man aber beschleunigen wenn man das ganze oder einen groÃŸen Teil des Files in den Hauptspeicher befÃ¶rdern kann. Man kann dann schnellere Suchalgorytmen benutzen. In groÃŸen Dateien wird das suchen auch verzÃ¶gert. Ãœblicherweise werden die Daten in einer einfachen Ordnung gespeichert um der physikalischen Ordnung auf der Platte oder am Band gleich zu kommen. Hier werden Ã¼blicherweise die neuen DatensÃ¤tze in einem Pile-File gespeichert. Von zeit zu Zeit werden dann die DatensÃ¤tze in die sequentielle Datei eingefÃ¼gt, um die Datei in Ordnung zu behalten.

Die index-sequentielle Datei

Die populÃ¤rste Form um die Schwachstellen der sequentiellen Datei zu Ã¼bergehen ist die Form von index-sequentiellen Dateien. In dieser Form wird die Hauptcharakteristik von sequentiellen Dateien behalten. Die DatensÃ¤zte werden mit Hilfe eines SchlÃ¼sselfeldes geordnet. Aber es werden noch 2 Zusatzfunktionen dazugegeben: die erste ist ein Index, um einen wahllosen zugriff zu ermÃ¶glichen und die zweite ist ein Ãœbertrags-File. Der Index ermÃ¶glicht einen schnellen Zugriff auf die Daten ohne langes Suchen. Eine Indexnummer kann mehr als einen Datensatz beinhalten. Die Ãœbertragsdatei ist eine sequentielle Datei in der ÃœbertrÃ¤ge der VorgÃ¤ngerdatei gespeichert werden. Ein Pointer zeigt auf den jeweiligen Datensatz.

In der einfachsten Form der Index nur eine Schicht. Hier ist er eine sequentielle Datei. Jeder Datensatz im Index besteht dann aus zwei Feldern: ein SchlÃ¼sselfeld, welches denselben Inhalt hat wie der SchlÃ¼ssel in der Hauptdatei, und einen Pointer auf die Hauptdatei. Wenn man nun ein spezielles Feld sucht, muss man nun nach dem hÃ¶chsten SchlÃ¼ssel suchen, der gleich mit dem SchlÃ¼ssel ist oder der vor dem gewÃ¼nschten SchlÃ¼ssel liegt. Die Suche wird in der Hauptdatei fortgesetzt, auf die der Pointer im Index verweist.

Um die erhÃ¶hte LeistungsfÃ¤higkeit dieser Struktur darzustellen gebe ich ein Beispiel:

Um in einer sequentiellen Datei mit einer Million DatensÃ¤tze nach einem speziellen SchlÃ¼ssel zu suchen, muss man ungefÃ¤hr 500.000 Zugriffe durchfÃ¼hren um ihn zu finden. Um jetzt in einer index-sequentielle Datei mit denselben Inhalten nach einen bestimmten Datensatz zu durchsuchen, benÃ¶tigt man 500 Zugriffe im Index und 500 Zugriffe fÃ¼r die Hauptdatei. Hier schrinkt die Zahl der Zugriffe auf 1000.

Wenn man die Ãœbertragsdatei benutzt, werden die neuen DatensÃ¤tze in der Ãœbertragsdatei gespeichert. Der VorgÃ¤nger des neuen Datensatzes im Hauptfile besitzt einen Pointer auf den neuen Datensatz. Wenn auch der VorgÃ¤nger in der Ãœbertragsdatei ist, dann muss der Pointer geÃ¤ndert werden.

Die index-sequentielle Datei ermÃ¶glicht einen sehr schnellen Zugriff auf einen bestimmten Datensatz, ohne seine sequentielle Natur aufzuheben..

Um das ganze File sequentiell zu durchsuchen muss man das Hauptfile durchsuchen, bis man einen Pointer auf die Ãœbertragsdatei findet. Dann wird die Ãœbertragungsdatei durchsucht, bis man einen Null-Pointer gefunden hat. Nachher setzt man die Suche im Hauptfile fort, wo man es verlassen hat.

Um diese Struktur noch zu beschleunigen kann man den Index mit mehreren Stufen benutzen. Die erste Stufe ist eine sequentielle Datei. Auf diesen Index kommt dann noch ein hÃ¶herer Index. Bei einer Datei mit 1 Million DatensÃ¤tze Hat man einen hÃ¶heren Index mit 100 EintrÃ¤gen. Diese verweisen auf 10.000 EintrÃ¤ge im niedrigeren Index. Die Suche beginnt im hÃ¶heren Index. Dort benÃ¶tigt man 50 Zugriffe um in den nÃ¤chsten Index zu springen. In diesen Index benÃ¶tigt man auch ca.50 Zugriffe. Im Hauptfile braucht man auch wieder 50 Zugriffe. Im Vergleich zu einer sequentielle Datei und einer index-sequentiellen Datei, die nur einen Index hat ist die Ersparnis enorm. Die Zugriffe werden von 500.000 auf 1000 und dann auf 150 beschrÃ¤nkt.

Die indexierte Datei

Wenn man nun in einem index-sequentiellen File nach etwas anderem sucht als einen SchlÃ¼ssel, dann wird die Effizienz des index-sequentiellen Files eingeschrÃ¤nkt. Um diese FlexibilitÃ¤t zu erreichen, dann muss man mehrere Indizes erstellen. Jede Art von Feldtyp in einem Datensatz besitzt einen Index. Die DatensÃ¤tze kÃ¶nnen nur durch ihren Index erreicht werden. Deshalb kann die Position der Felder egal sein, Hauptsache ein Pointer aus einem Index zeigt auf das Feld. Es kÃ¶nnen auch DatensÃ¤tze mit verschiedener LÃ¤nge gespeichert werden.

Es werden bei dieser Form zwei Typen von Indizes verwendet: Der erste ist ein Index fÃ¼r jeden Datensatz in der ganzen Datei. Der Index selbst wird als sequentielle Datei verwaltet. Der zweite Index ist der Teilindex. Er zeigt auf jedes Feld, das mÃ¶glicherweise schnell benÃ¶tigt wird, oder nach dem gesucht werden soll. Wenn ein neuer Datensatz eingetragen wird, muss man alle Indizes Ã¤ndern.

Die direkte oder gehashte Datei

Die direkte oder gehashte Datei wird dort gefunden, wo man direkten Zugriff zu jeden Block einer bekannten Adresse benÃ¶tigt. Hier wird auch ein SchlÃ¼sselfeld benÃ¶tigt.

Direkte Dateien werden dann benutzt, wenn man schnellen Zugriff benÃ¶tigt. Dies geschieht z.B. bei Directories.

1287 Worte in "deutsch" als "hilfreich" bewertet

Datenanalyse

Datenbanken

Datenerfassung

Dateistrukturen