BAS
Bayerisches Archiv für Sprachsignale
Validierung

Same page in english

Letzter Update dieser Seite: 28.07.03

BAS Validierung externer Ressourcen

Wir unterscheiden zwischen den Begriffen Evaluierung und Validierung einer Sprachressource.
Die Evaluierung bezeichnet die qualitative Beurteilung einer Ressource im Hinblick auf eine bestimmte Aufgabe. Um zum Beispiel einen Sprachkorpus für die Spracherkennung über das Telephon evaluieren zu können, müssen Experimente mit einem Standard-Spracherkenner (z.B. HTK) durchgeführt werden, um beweisen zu können, dass dieser Korpus dafür prinzipiell geeignet ist.
Solche Evaluierungen wurden bisher am BAS nur mit eigenen Ressourcen durchgeführt; bis dato gibt es am BAS keine echten Evaluierung externer Daten.
Unter Validierung verstehen wir die formale und inhaltliche Überprüfung einer Sprachressource in Hinblick auf ihre Spezifikation. Eine Validierung umfasst i.A. den formalen Check von Fileformaten, Vollständigkeit, Struktur, Dokumentation, Labeling, Tagging etc. Die meisten im BAS-Katalog gelisteten Ressourcen wurden entweder extern oder intern validiert. Derzeit werden alle an BAS archivierten Sprachkorpora anhand der im BITS-Projekt entwickelten Verfahren neu validiert:

Validierungsrichtlinien (engl.)
Validierungsprotokolle

Neben der hausinternen Validierung der Sprachressourcen im BAS-Katalog führt das BAS auch Validierungen von Ressourcen fremder Institutionen durch. Dies geschieht i.A. im Auftrag des Produzenten oder seines Auftraggebers. Standardisierte Validierungsprotokolle existieren derzeit nur innerhalb bestimmter Projekte (z.B. SpeechDat). Die Validierung einer externen Ressource wird daher von Fall zu Fall mit dem Auftraggeber abgestimmt. Im einfachsten Falle kommen die BAS Validierungsrichtlinien zur Anwendung.

Beispiel für ein BAS Validierungsprotokoll:

Validation report for the CGN Database, release 3


Florian Schiel