Vorstellung (SSE) SKVA Synth: Audiodialoge automatisch generieren

darklady310187

Mrs. Oblivion 2015
https://www.nexusmods.com/skyrimspecialedition/mods/44184


Das KI basierte Tool wurde mit Daten von gesprochenen In-Game-Dialogzeilen trainiert und ist in der Lage auf Basis dieser Daten neue Audiodialoge zu generieren. Die generierten Audiodateien könnten zum Beispiel für NPCs in Quest Mods, Machinima, Memes, oder als Erweiterung/Editierung/Fix von bereits existierenden Quests bzw. Dialogoptionen verwendet werden.

Sprachmodelle gibt es nicht nur für Skyrim, sondern auch für Fallout 3/NV/4, Morrowind und Oblivion. Die weiblichen Stimmen sind von guter Qualität, die männlichen OK, denn die KI-Modelle orientierten sich an einer Sprecherin.

Am besten funktioniert das Tool mit englischen Texten. Deutsch funktioniert einigermaßen, aber manchmal muss man etwas tricksen, damit die Aussprache (halbwegs) annehmbar klingt (bessere Ergebnisse hatte ich, als ich die GPU-Option aktiviert hatte). Für ein "ei" nehme ich ein y und bei einem langen "a" hänge ich einfach ein h dran. Soll eine Silbe betont werden, packe ich einen Punkt oder ein Komma dazwischen.

Bis jetzt habe ich nur ein bisschen herumgespielt, um herauszufinden, was alles möglich ist (dazu mehr weiter unten im Abschnitt "Generierung und Bearbeitung").


Installation

Installiert die Microsoft Visual C++ Redistributable, falls ihr es noch nicht getan habt.

"CPU xVASynth" arbeitet nur mit dem CPU (Prozessor) und "xVASynth GPU" nutzt CPU und/oder GPU (Grafikkarte; falls ihr diese Option nutzen wollt, muss sie im Einstellungsmenü des Tools aktiviert werden). Entpackt die gewählte Version in einen Ordner eurer Wahl. Ich konnte in der Downloadbeschreibung nicht herauslesen, ob die Generierung via GPU nur mit einer NVIDIA-Grafikkarte funktioniert. Jedenfalls brauchen NVIDIA-Grafikkarten-Besitzer*innen zusätzlich CUDA.

Als nächstes folgt die Installation der Sprachmodelle. Die Sprachmodelle (voice models) gibt es als separate Downloads.

Nachdem ihr das gewünschte Sprachmodell heruntergeladen habt, klickt ihr euch im Archiv durch bis zum Ordner resources, den ihr ins Installationsverzeichnis von SKVA Synth schiebt (da, wo sich die xVASynth.exe befindet).

Egal, welche Version ihr wählt, das Tool muss nur einmal installiert und kann gleich auch für andere Spiele genutzt werden (das jeweilige Spiel könnt ihr über eine Dropdown-Liste auswählen, sobald sich die Sprachmodelle in den jeweiligen Ordnern befinden).


Generierung und Bearbeitung

Nehmen wir als Beispiel Serana aus Dawnguard. Startet mit einem Doppelklick auf die xVASynth.exe das Tool. Wählt oben links bei Game im Dropdown-Menü Skyrim aus. Klickt auf den Eintrag Serana. Schreibt euren Text, klickt auf "Load model" und dann auf "Generate Voice". Wenn ihr auf den dünnen blauen Balken unterhalb eines Buchstabens klickt, könnt ihr die ausgesprochene Länge des Buchstabens mittels des Schiebereglers neben "Letter legnth" verändern (mit "Reset Letter" wird die Änderung rückgängig gemacht). Das Verschieben der einzelnen Balken unterhalb der Buchstaben nach unten oder oben verändert die Tonhöhe. Die Buttons und der Schieberegler darunter verändern die ganze gesprochene Dialogzeile: Amplify (Ton verstärken), Flatten (Ton abschwächen), Increase (Tonhöhe erhöhen), Decrease (Tonhöhe erniedrigen), Pacing (Sprechtempo).

Damit jede Änderung übernommen wird, muss jedes Mal der "Generate Voice" betätigt werden.
Alle Änderungen lassen sich mit dem Reset-Button auf einen Schlag rückgängig machen.

Seid ihr mit dem Audiodialog zufrieden, könnt ihr ihn als .wav-Datei mittels des "Keep sample"-Buttons speichern. Mit einem Klick auf das Bleistift-Symbol ändert ihr den Namen der Datei, ein Klick auf das Kästchen-Symbol öffnet den Ordner der gespeicherten Datei und ein Klick auf das X-Symbol löscht die Datei.

Für eine gute Sprachqualität sollten die Audiodateien eine Länge von 1 bis 5 Sekunden haben. Längere Texte können in mehre .wav-Dateien aufgesplittet und z. B. mit Audacity zusammengefügt werden.

In den Kommentaren auf der Download-Seite habe ich gelesen, dass die Wav-Dateien im 32-Bit-Format und somit inkompatibel mit dem Creation Kit sind. Damit sie genutzt werden können, müssen sie ins 16-Bit-Format umgewandelt werden. Quelle
 
  • Like
Reaktionen: PRieST
Hab ich auch schon entdeckt, leider bisher nur einigermaßen brauchbar für englische, weibliche Stimmen.
Aber geben wir dem Ganzen noch ein wenig Zeit, dann werden mit Sicherheit auch die männlichen Stimmen verbessert.

Und ich hoffe inständig auf die Sprachmodelle der deutschen Soundfiles bzw. würde sie ja auch gerne selbst trainieren lassen, aber dafür fehlt mir das Wissen wie...
eine Anleitung dazu hab ich leider noch nicht entdecken können.
 
Ich würde sagen, es kommt auch auf den Text, die Punktation und auf das Sprachmodell an. Beim Satz "Oh my god, that's exciting" sprechen die männlichen Modelle das Wort exciting sehr abgehakt aus, aber wenn ich vor die Silbe "ting" einen Punkt setze, klingt es deutlich besser. Miraak (Dragonborn) und Danse (Fallout 4) verzweifeln an diesem Satz (hören sich ziemlich roboterhaft an), wohingegen sich Haskill (Oblivion) ganz gut schlägt. Als Vergleich eine Hörprobe von Serana (Dawnguard) und Haskill: https://darkladyswelt.de/wp-content/uploads/2021/01/xVASynth-test.mp3
 
Schön, dass sich hier jemand mit dem Tool beschäftigt. ich komme einfach nicht dazu, die editierten Voices für Skyrim zu überarbeiten, obwohl die es schon hier und da nötig hätten.
 
So, jetzt ist auch der passende Trainer zum Trainieren der Voicemodels draußen:

XVATrainer

Hat jemand die Zeit, Muse und vor allem die passende Rechnervorraussetzungen um deutsche Stimmen zu trainieren?
Oder vllt. schon welche auf Nexus o.Ä. gefunden?

LG
 
  • Like
Reaktionen: PRieST
Gefunden noch nicht, vllt kommen diese ja nun aber bald.
Wollte mich mit dem "trainieren" mal vertraut machen, bin bisher aber noch nicht dazu gekommen.

Vermutlich muss dann aber auch noch das "XVA Wörterbuch" für eine bessere deutsche Aussprache angepasst werden.
Das kann auch noch mal sehr mühselig werden.