Informationen zum Korpus
Quellen
Das Korpus setzt sich aus Aufnahmen aus drei verschiedenen Quellen zusammen:
Archiv des Sorbischen Rundfunks (Studio Cottbus des Rundfunks Berlin-Brandenburg RBB, früher ORB, noch früher Rundfunk der DDR):
- 110 Aufnahmen aus den Jahren 1956 bis 2006. Vertreten sind sowohl Dialektsprecher als auch Sprecher der Standardsprache (mit muttersprachlich niedersorbischem/wendischem, obersorbischem oder deutschen Hintergrund), und zwar in verschiedenen Formen der Standardsprache.
Bestände des Sorbischen Kulturarchivs im Serbski institut z.t./Sorbisches Institut e.V.:
- 135 Aufnahmen aus den Jahren 1951 bis 1971. Die Aufnahmen wurden vom Institut für sprachwissenschaftliche Zwecke erstellt, insbesondere für den sorbischen Sprachatlas (vgl. Bibliographie: SSA 1-13 1965-1993). Es handelt sich dabei um Dialektaufnahmen.
Feldforschungsprojekt speziell für dieses Korpus:
- 100 Aufnahmen aus den Jahren 2005 und 2006. Die Aufnahmen wurden von J. Frahnow erzeugt. Es handelt sich um Gespräche mit meist älteren Muttersprachlern, welche in der Regel den jeweiligen örtlichen Dialekt repräsentieren.
Bei der Auswahl von Aufnahmen und Probanden wurde versucht, durch die drei unterschiedlichen Quellen insgesamt sowohl die Breite der dialektalen Formen des Niedersorbisch/Wendischen als auch der verschiedenen standardsprachlichen Varianten wiederzugeben.
Wichtiger Hinweis: Bitte beachten Sie bei der Nutzung von Daten und Audiomaterial aus den unterschiedlichen Datenquellen, dass unterschiedliche Regelungen in den Benutzungsbedingungen bestehen!
Metadaten
Zu jeder Aufnahme gibt es ein Datenblatt, das die wichtigsten Informationen zur Aufnahme enthält. Es sind dies insbesondere:
- Signatur („Aufnahmebezeichner“): Sie besteht aus dem Buchstaben f, r oder s und einer vierstelligen Zahl.
Dabei bedeutet f: Feldaufnahme durch J. Frahnow, r: Aufnahmen aus dem Rundfunkarchiv des RBB, s: Aufnahmen aus dem Sorbischen Kulturarchiv.
Zusätzlich zu den für dieses Korpus gültigen Signaturen sind auch die Archivsignaturen, wie sie bei den Quellen verwendet werden, erfasst. - Textsorte (z.B. Gespräch, Interview, Reportage usw.)
- Inhalt (z.B. Dorfleben, Brauchtum, Landwirtschaft usw.)
- Aufnahmeort
- Aufnahmedatum
- Angabe zum Geschlecht (Namen werden zum Schutz der Persönlichkeitsrechte der Probanden nicht angegeben)
- Geburtsort des Sprechers bzw. der Sprecherin
- Geburtsjahr der Sprecherin, des Sprechers
- Dialekt
- Familiensprache: Hier wird angegeben, ob die Familiensprache Niedersorbisch/Wendisch, Deutsch oder gemischt war (gegebenenfalls auch noch Obersorbisch).
- Orte längeren Aufenthalts
- Angaben zum Bildungsgang
Die Ortsnamen in den Datenfeldern Aufnahmeort, Geburtsort, Dialekt und Aufenthaltsorte sind auf Deutsch und Niedersorbisch/Wendisch enthalten und können auf den drei Ebenen Ort oder Ortsteil, Amt bzw. Sammelgemeinde oder Stadt sowie Landkreis (Stand 2005) angezeigt und gruppiert werden. Zusätzlich sind alle enthaltenen niedersorbischen Orte Dialektgebieten zugeordnet. Dabei wird die Dialektgliederung des sorbischen Sprachatlasses verwendet, die letztlich auf die Einteilung von Muka zurückgeht. Differenziert werden dabei nur die niedersorbischen Dialekte bzw. die Übergangsdialekte. Bei muttersprachlichen Obersorben wird nur darauf verwiesen. Bei nichtmuttersprachlichen Sprechern oder bei muttersprachlichen Sprechern, die Standardsprache verwenden, wird als Dialekt „Standard“ angegeben.
Zu manchen Aufnahmen sind mehrere Metadatensätze vorhanden, und zwar dann, wenn auf einer Aufnahme mehr als ein Sprecher zu hören ist, wobei Moderatoren und Interviewer in der Regel nicht berücksichtigt wurden. Die Signaturen der Metadatensätze sind in diesen Fällen durch angehängte Indexbuchstaben (a, b, ...) gekennzeichnet.
Der Zugriff auf die im Korpus enthaltenen Datensätze und Audioaufnahmen erfolgt wahlweise im Direktzugriff über die Signaturen oder über ein Suchformular, durch welches alle genannten Datenfelder mit intelligenten Filterfunktionen durchsucht und gruppiert werden können.
Technische Daten der Aufnahmen
Neben den genannten Hintergrundinformationen enthalten die Datenblätter zu den Aufnahmen auch noch folgende Daten:
- Länge der Aufnahme in Minuten:Sekunden
- Größe der .wav-Datei in Bytes/Kilobytes/Megabytes
- Größe der .mp3-Datei in Bytes/Kilobytes/Megabytes
- Abtastrate (Samplingrate) in Hz.
- Quantisierungsrate der Amplitude in Bits per Sample
- Anzahl der Kanäle (1 für Mono, 2 für Stereo)
- Signal-To-Noise Ratio SNR (bislang nur bei Dateien aus dem Feldforschungsprojekt)
- Bitrate (.mp3-Datei) in kBit/s