BAS
Bayerisches Archiv für Sprachsignale
Webservices

Same page in english

Letzter Update dieser Seite: 22.06.2016


BAS Webservices sind server-basierte BAS-Programme, die per REST-Calls aufgerufen werden können. Meistens laden diese ein oder mehrere Text- oder Signalfiles vom lokalen Rechner, bearbeiten diese und liefern ein XML Objekt zurück mit Erfolgsmeldung (Feld 'success', boolean), dem Link auf die Ergebnisdatei (Feld 'downloadLink'), den Text-Meldungen des Service (Feld 'output') und etwaigen Warnungen/Fehlermeldungen (Feld 'warnings'). Ist das Ergebnis des Webservices in einem File gespeichert, kann der Link auf dieses File innerhalb von 24h abgerufen werden.

Beispiel: REST-Call von MAUS Basic
AAA334869_0.txt und AAA334869_0.wav sind Dateien im lokalen Verzeichnis:

curl -v -X POST -H 'content-type: multipart/form-data' -F LANGUAGE=deu -F TEXT=@AAA334869_0.txt -F SIGNAL=@AAA334869_0.wav http://clarin.phonetik.uni-muenchen.de/BASWebServices/services/runMAUSBasic

Beispiel: Zurückgeliefertes XML:

<WebServiceResponseLink>
  <success>true</success>
  <downloadLink>http://clarin.phonetik.uni-muenchen.de:80/BASWebServicesTest//data////2013.12.13_09.21.31_21D1B6BE108C61550B2BC326B225E61E//AAA334869_0.TextGrid</downloadLink>
  <output>/usr/local/bin/maus OUTFORMAT=TextGrid BPF=/usr/share/tomcat6/webapps/BASWebServicesTest//data//2013.12.13_09.21.31_21D1B6BE108C61550B2BC326B225E61E//AAA334869_0.par INSKANTEXTGRID=true LANGUAGE=deu OUT=/usr/share/tomcat6/webapps/BASWebServicesTest//data//2013.12.13_09.21.31_21D1B6BE108C61550B2BC326B225E61E//AAA334869_0.TextGrid INSORTTEXTGRID=true USETRN=true SIGNAL=/usr/share/tomcat6/webapps/BASWebServicesTest//data//2013.12.13_09.21.31_21D1B6BE108C61550B2BC326B225E61E//AAA334869_0.wav</output>
  <warnings></warnings>
</WebServiceResponseLink>

Alle aktuellen Webservices werden formal in einem Metadaten CMDI file beschrieben. Dieses File dient hauptsächlich dazu, die automatische Einbettung der webservices in Applikationen/Bedienoberflächen zu erlauben. Es kann aber auch als Referenz für Webservice Calls und deren Parameter dienen.

Beachten Sie bitte vor der Benutzung von BAS web services unsere Conditions of Use for Academics oder Conditions of Use for Commercial Institutions.

Im Folgenden beschreiben wir die wichtigsten aktuellen Webservices anhand von einfachen curl-Calls, die man von jeder UNIX-Kommandozeile (konsole,terminal o.ä) aufrufen kann.


Automatische phonetische Segmentierung - BAS MAUS

Ein Sprachsignal wird automatisch in seine Wort- und Phonem-Einheiten segmentiert. Siehe Video-Einführung und Praktische Anleitung zur MAUS-Technik.

Basic MAUS - runMAUSBasic

Input: Text (TXT,UTF-8), Signal (WAV,NIST-SPHERE)
Output: Segmentierung (TextGrid)

Beispiel-Call und Parameter-Beschreibung:
Webservices Help : siehe Abschnitt runMAUSBasic

General MAUS - runMAUS

Input: Kanonische Aussprache (BPF tier KAN), Signal (WAV,NIST-SPHERE)
Output: Segmentierung (BPF,TextGrid,Emu)

Beispiel-Call und Parameter-Beschreibung:
Webservices Help : siehe Abschnitt runMAUS

Sprachsynthese - runTTS

Ein (deutscher) Text wird in ein Sprachsignal gewandelt; zwei weibliche und zwei männliche Stimmen, die auch als BAS Korpora existieren, stehen zur freien Verfügung. Das Synthese-System MARY-TTS wurde von der Universität Saarbrücken entwickelt.

Input: Text (TXT,UTF-8)
Output: Signal (WAV)

Beispiel-Call und Parameter-Beschreibung:
Webservices Help : siehe Abschnitt runTTS

Text-to-Phoneme - runG2P

Ein Text oder Wortliste (UTF-8) wird in eine phonologische (Standard-)Aussprache gewandelt (kodiert in SAM-PA oder IPA). Das G2P-System basiert auf einem sprachunabhängigen statistischen Modell, das auf großen Aussprache-Lexica trainiert wird und von Uwe Reichel am BAS entwickelt wurde.

Input: Text (TXT,UTF-8)
Output: Aussprache (verschiedene Formate)

Beispiel-Call und Parameter-Beschreibung:
Webservices Help : siehe Abschnitt runG2P

Dokumentation und Materialien

CMDI Metadata Generator COALA - runCOALA

Generates corpus and session CMDIs according to the media-corpus-profile and the media-session-profile of the ComponentRegistry by converting five CSV tables to the CMDI format. Use the runCOALAGetTemplates WebService to get templates for these tables. The resulting session CMDIs can be used as they are, while the corpus CMDI needs to be edited by hand.

Input: Excel Tables (CSV,UTF-8)
Output: Corpus and Session Metadata encoded in CMDI

Example REST call and parameter synopsis:
Webservices Help : refer to section runCOALA

Symbolic String Aligner - runTextAlign

This service aligns text sequence pairs by minimizing their edit distance. Edit operations are substitution, insertion, and deletion. Next to a naive cost function penalizing any edit operation but null substitution by 1, cost functions can be imported, or estimated probabilistically from the input data, or can be chosen from pre-stored examples. Typical use cases are the alignment of letters and phonemes in pronunciation dictionaries, and the alignment of canonic and spontaneous speech transcriptions in order to infer or verify phonologic rules. The service takes a csv file with two columns separated by a semicolon. Each row contains a string pair to be aligned. The output is a zip file that contains a two-column csv file with the aligned result. Deletions are marked by underscore, insertions by a plus sign. If the cost function is estimated from the input data the zip file additionally contains this cost function in a csv file with three columns separated by semicolons of the form X;Y;C, indicating that the replacement of X by Y is penalized by cost C. This cost file can be re-used for further applications of the aligner.

Input: Excel Table with string pairs (CSV,UTF-8)
Output: Excel Tabel with alignment results, cost functions (CSV,UTF-8)

Example REST call and parameter synopsis:
Webservices Help : refer to section runTextAlign

Automatic Syllabification - runPho2Syl

Syllabification of canonical and spontaneous speech transcriptions for multiple languages. The input format is restricted to BAS partitur files generated e.g. by WebMAUS or RunG2P. Canonical transcriptions of the tier KAN as well as spontaneous speech transcriptions of the tiers MAU, PHO, and SAP can be syllabified and are written to the output tiers KAS and MAS, respectively. For spontaneous speech input, it can further be specified whether or not the syllable boundaries are synchronized with word boundaries. Depending on the language, syllabification is carried out by C4.5 decision trees or based on sonority hierarchy.

Input: BAS Partitur Format (PAR,UTF-8)
Output: BAS Partitur Format (PAR,UTF-8), Praat TextGrid

Example REST call and parameter synopsis:
Webservices Help : refer to section runPho2Syl

Phonetic Transcription - runMINNI

Segments and labels a speech audio file into SAM-PA (or IPA) phonetic segments without any text/phonological input; results are stored either in praat compatible TextGrid file (configuration parameter OUTFORMAT=TextGrid) or a CSV table (the BPF MAU tier, configuration parameter OUTFORMAT=csv).

Input: Signal File (WAV)
Output: BAS Partitur Format, CSV, TextGrid

Example REST call and parameter synopsis:
Webservices Help : refer to section runMINNI

Chunk Preparation - runChunkPreparation

This service transforms TextGrid and ELAN files to BAS partiture files containing the tiers ORT, TRN, and KAN. ORT and KAN contain the word tokens and their canonical transcriptions, respectively. TRN stores word chunks as given in the specified input file tier. The presence of the TRN tier improves the performance of the automatic phonetic segmentation system WEBMAUS.

Input: Praat (TextGrid), ELAN (EAF)
Output: BAS Partitur Format

Example REST call and parameter synopsis:
Webservices Help : refer to section runChunkPreparation


Copyright © 2013 Bayerisches Archiv für Sprachsignale, Universität Müchen
This page and all other pages with the initial 'BAS' or 'Bas' in the filename may be copied, printed and distributed to other parties, under the condition that the pages are distributed as shown here. Parts of pages or extended pages may not be distributed further without permission of the BAS.


Florian Schiel