Wie man sich ein Tonstudio am PC einrichtet und es mit KI ordentlich aufmotzt

Große Studios wie dieses existieren noch, sie werden aber nicht zwingend gebraucht.

(Dieses Bild wurde von der KI Midjourney erstellt. Der Prompt lautete: picture in the style of a graphic novel, showing a young rapper standing inside a music studios with lots of equipment --ar 3:2)

In der STANDARD-Serie "Musik der Zukunft" widmen wir uns in mehr oder weniger regelmäßig erscheinenden Artikeln der Frage, wie Technologie und Musik ineinandergreifen. Nachdem wir uns zuletzt viel mit dem Vertrieb von Musik beschäftigt und erklärt haben, wie man mit Apps das Gitarrenspielen lernen kann, widmen wir uns nun wieder dem Thema der Musikproduktion: Hier wird erklärt, wie ein virtuelles Tonstudio auf dem PC entsteht und wie dieses mit KI-Tools bereichert werden kann.

Gerade wenn es um künstliche Intelligenz geht, muss gleich vorab gesagt werden: In diesem Feld tut sich wahnsinnig viel, fast täglich werden neue Tools vorgestellt. Und auch wenn ich mich um eine möglichst breite Abdeckung des Themenfelds bemühe, so freue ich mich doch über Ergänzungen und Anregungen aus dem Forum.

Außerdem ist im Zuge der Hands-on-Recherchen wieder ein neuer Song entstanden, der im nachfolgenden Video eingebaut ist. Einen Anspruch auf einen Platz in den Charts habe ich damit nicht, das Projekt dient einzig Demonstrationszwecken. Der Entstehungsprozess wird weiter unten beschrieben.

Die Digital Audio Workstation

Wer an Tonstudios denkt, der hat meist große Räume mit Glasscheiben und Schaumstoffpolsterung sowie Mischpulte mit etlichen blinkenden Knöpfen und Reglern im Kopf.

Diese Institutionen gibt es zwar nach wie vor, vor allem für den professionellen Bereich – Hobbymusikerinnen und -musiker können aber auch mit deutlich weniger Hardware und kleinerem Budget zu akzeptablen Ergebnissen kommen. Im Grunde kann sich jeder halbwegs moderne Laptop in ein Tonstudio verwandeln.

Das Herz eines solchen virtuellen Tonstudios ist ein Stück Software, die "Digital Audio Workstation" (kurz: DAW). Diese dient dazu, die einzelnen Instrumente aufzunehmen, zu koordinieren, mit Effekten zu versehen und das Endergebnis schließlich zu exportieren.

Welche DAW passt zu wem?

Wer sich für eine DAW entscheiden möchte, der hat die Qual der Wahl. So wird als kostenlose Alternative meist die verlässliche Software Audacity genannt, die es ermöglicht, Instrumente aufzunehmen, zu mischen und zu exportieren. In einem Punkt stößt Audacity aber rasch an seine Grenzen: Es unterstützt kein MIDI und ist somit unter anderem für viele der im späteren Verlauf dieses Artikels genannte KI-Tools nicht empfänglich. Aber mehr dazu später.

So sieht Garageband auf dem Smartphone aus.

Apple-Fans wiederum können auf Garageband zugreifen – eine kostenlose DAW, die es nicht nur für den Mac, sondern auch für mobile Apple-Geräte (iPhones und iPads) gibt und die auch MIDI unterstützt. Eine breite Auswahl an DAWs für Linux gibt es unter anderem unter diesem Link.

Und freilich gibt es auch für Windows etliche Programme, zwei davon sind Cubase vom in Hamburg beheimateten Steinberg und Ableton Live vom Berliner Entwickler Ableton. Für meinen Test habe ich mich für Cubase entschieden, im Grunde funktionieren die DAWs aber allesamt recht ähnlich.

Einführung: Wie funktioniert eine DAW?

Wer schon einmal ein Video geschnitten hat, der wird sich auch in einer DAW rasch zurechtfinden. Denn ist die Software einmal installiert und ein neues Projekt angelegt, so findet man sich bei den meisten Digital Audio Workstations in einem Fenster wieder, das auf der horizontalen Achse eine Timeline, also den zeitlichen Verlauf des Songs, zeigt.

Auf dieser Timeline werden vertikal die einzelnen Tracks angelegt, von denen jeder für ein Instrument, eine Gesangsspur oder auch für einen Audioeffekt stehen kann. Auf den daraus resultierenden Tracks können Instrumente aufgenommen, abgemischt und mit Effekten versehen werden. Das klingt komplizierter, als es wirklich ist. Eine kurze und verständliche Einführung in die Kernfunktionen von Cubase bietet das folgende Video.

Die wichtigste Unterscheidung ist dabei jene zwischen Audio-Content und virtuellen Instrumenten beziehungsweise MIDI. Audiospuren sind tatsächliche Aufnahmen, die entweder vorher erstellt und anschließend in die DAW importiert oder direkt in dieser aufgenommen werden.

Neben einem Mikrofon oder entsprechenden Instrumenten braucht es dafür ein weiteres Stück Hardware: eine externe Audiokarte, an welche die entsprechenden Kabel für E-Gitarre oder Mikrofon angeschlossen werden und die selbst per USB-Kabel mit dem PC verbunden wird. Außerdem ermöglicht sie meist, noch Kopfhörer oder Studio-Lautsprecher anzuschließen.

Eine etwas veraltete Audiokarte, die aber auch nach 15 Jahren noch immer gute Dienste leistet.

Anders verhält es sich mit MIDI. Bei diesem digitalen Format handelt es sich nicht um Audioaufnahmen im engeren Sinn, sondern um digitale Befehle, bei denen dem Computer mitgeteilt wird, welche Note er wie lange mit welcher Intensität spielen soll.

Der Computer greift dabei auf eine Datenbank aus virtuellen Instrumenten zurück, die entweder schon in die DAW integriert ist oder hinzugekauft werden kann, wenn man besondere Ansprüche hat. Die Auswahl ist schier grenzenlos: Von Space-Sounds über Konzertflügel bis zu mongolischem Obertongesang ist alles möglich.

Es gibt mehrere Möglichkeiten, MIDI-Dateien zu erstellen. Eine wäre etwa, diese direkt mit der Computermaus in die DAW hineinzuzeichnen. Eine andere ist, diese über einen externen MIDI-Controller – klassischerweise ein Keyboard – einzuspielen. Und dann gibt es eben auch die Möglichkeit, sich die MIDI-Tracks von KI-Tools erstellen zu lassen und anschließend in die DAW zu importieren.

Eine neue Musikrichtung entsteht mit KI

Was uns zu dem kleinen Selbstversuch und dem erneuten Experimentieren mit KI-Tools bringt. Denn eines Tages hatte ich mich auf Twitter etwas zu weit aus dem Fenster gelehnt und die Erschaffung einer neuen Musikrichtung proklamiert, weshalb ein User mich kurzerhand aufforderte, doch einen Song über seinen Kleiderschrank zu produzieren.

Challenge accepted. Und erreichen wollte ich das Ziel, indem ich Hand in Hand mit künstlicher Intelligenz arbeite. Dafür brauchte ich Tools, die mir einen Songtext, Akkorde und Melodie generieren. Außerdem wollte ich nicht selber singen, brauchte also einen Text-to-Speech-Converter. Und das Mastering, also die Finalisierung des Ganzen, sollte bitte auch eine KI machen.

Akkorde und Melodie mit KI

In den vergangenen Wochen ist viel über KI-generierte Melodien geschrieben und gesprochen worden, tatsächlich sind aber wenige der in der breiten Masse verfügbaren Tools wirklich brauchbar. So ermöglicht Googles Music LM zwar angeblich, die Wunschmelodie auf einen reinen Textbefehl hin zu erstellen, bisher finden diese Tests aber noch hinter verschlossenen Türen statt.

Songstarter, ein Tool der Musik-Produktionsplattform Bandlab, bietet nur äußerst eingeschränkte Eingabemöglichkeiten. Ähnliches gilt für den kostenlosen und ohne Anmeldung nutzbaren MIDI-Generator von Dopeloop, der Melodien auf Basis eingeschränkter Angaben nach dem Zufallsprinzip erstellt. Und ein weiteres Tool namens Mubert verspricht zwar das Erstellen von Tracks via Textbefehl, scheiterte im Test aber an jeder einzelnen Eingabe – egal ob ich mir einen langsamen Lo-Fi-Track oder einen schnellen Rocksong wünschte.

Vergleichsweise vielversprechend ist ein Werkzeug namens Wavtool. Hierbei handelt es sich um eine DAW, die im Browser läuft. Das innovativste Feature ist ein Chatbot, der auf Befehl passende Tracks – etwa einen Drum-Loop für einen Lo-Fi-Song – erschafft. Und das klappt überraschend gut. Malus: Ein Export via MIDI, also ein Editieren in der stationären DAW mit der eigenen Soundbibliothek, ist derzeit noch nicht möglich.

Wavtool läuft im Browser, leider können keine MIDIs exportiert werden.

Andere Text-to-Melody-Generatoren setzen nicht wirklich auf konkrete Prompts, sondern generieren MIDI-Dateien, indem die Eingaben per se in Melodien verwandelt werden. Oder, anderes gesagt: Jeder Buchstabe ist ein Ton. Ein kostenloses und im Browser verwendbares Tool dieser Art ist Langorhythm. Über die Funktionsweise und den Hintergrund des Projekts spricht Initiator Jan Willem Kolkman im nachfolgenden TED-Talk.

Ein weiter entwickeltes, dafür kostenpflichtiges Tool dieser Art nennt sich Audiocipher. Im Prinzip funktioniert es ähnlich wie das Projekt des jungen Niederländers, wird aber als Software heruntergeladen, die entweder als Plug-in für DAWs wie Ableton Live oder als Stand-alone-Software verwendet wird.

Auch hier gibt man Text ein, der in eine Melodie verwandelt wird, kann aber obendrein die gewünschte Notenlänge bestimmen oder diese per Zufall variieren lassen. Außerdem wird entschieden, ob eine Melodie oder Akkorde generiert werden sollen. Und wenn es Akkorde sind, kann die Art derselben festgelegt werden. Auch lässt sich die gewünschte Tonleiter festlegen.

Ich nutzte Aufdiocipher für mein Projekt und entschied mich für die Tonleiter e-Moll, jeweils in Halbtönen. Das verlieh dem Werk naturgemäß eine gewisse Langsamkeit und Schwere, was mir gefällt. Immerhin geht es ja um einen Kleiderkasten. Die MIDI-Spuren für Akkorde und Melodie wurden also in die DAW gezogen und dort den aus meiner Sicht passenden Instrumenten zugeordnet.

Songtexte mit ChatGPT

Der nächste Schritt: Songtext. Zugegeben, hier war ich nicht sonderlich kreativ und habe schlichtweg ChatGPT gebeten, einen Text für einen Psychedelic-Rock-Song zu schreiben, der sich um einen Kleiderschrank dreht. Das minimalistische Äußere und chaotische Innere sollten dabei eine Metapher auf die menschliche Seele sein.

Mit dem Ergebnis bin ich für meinen kleinen Selbstversuch eigentlich zufrieden – es ginge aber auch anders. So soll das Tool Lyric Studio dabei helfen, Schreibblockaden bei den eigenen Songtexten zu eliminieren, indem die KI Vorschläge basierend auf dem Thema und dem Genre des Liedes macht.

Text-to-Speech: Die Stimme aus dem Computer

Soll der Songtext daraufhin gesungen werden, so helfen wieder zahlreiche unterschiedliche Tools. Eines davon ist Melody Studio, das vom gleichen Hersteller kommt wie Lyric Studio. Dieses schlägt Melodien, basierend auf diversen Eingaben, vor. Singen muss man allerdings noch selbst.

Weil ich dies nicht wünschte, setzte ich auf das gleiche Tool wie schon bei einem vorherigen Projekt: Prime Voice AI von Eleven Labs. Dieses wandelt die von ChatGPT verfassten Texte anhand synthetischer Stimmen in gesprochenen Text um. Die entsprechenden Audiofiles importierte ich in meine DAW. Ich ordnete sie so an, dass sie aus meiner Sicht von der Dramatik des Songs her Sinn ergeben, und versah sie mit Effekten. Wäre ich besonders motiviert, dann hätte ich wohl auch noch ein Autotune-Plug-in drüberlaufen lassen.

Soundeffekte und Mastering

Mit einem weiteren Tool von Dopeloop erstellte ich außerdem ein Soundfile, welches das Läuten eines Telefons nachahmt, und importierte es ebenfalls in meine DAW. Andere Nebengeräusche sind in der Audiobibliothek meiner Cubase-Version integriert und sollen ebenso zur Stimmung des Songs beitragen. Und die Instrumente bekamen freilich auch noch ein paar Effekte spendiert, etwa ein Auto-Panning. Wer will mich daran schon hindern?

Mehr menschliche Energie könnte man freilich noch in das Mixing, also das Abstimmen der einzelnen Tracks aufeinander, stecken – aber dafür fehlte mir die Geduld. Also exportierte ich das Werk und ließ zum Abschluss noch die KI von Songmastr das Mastering machen.

Rechtlichen Probleme und Ausblick

Wie bereits eingangs erwähnt, erhebt die hier dargebotene Anleitung längst keine Anspruch auf Vollständigkeit, alleine die auf Innovation im Musikbusiness fokussierte Organisation Water and Music listet über 50 derartige Tools. Und bei manchen Werkzeugen dieser Art fangen die rechtlichen Probleme an.

Eine Auswahl aus den Nachforschungen der Organisation Water and Music.

So bieten auch andere Tools die Möglichkeit, die eigene Stimme in eine fremde oder geschrieben Text in Sprache zu verwandeln. Eines davon ist Uberduck, mit dem ich innerhalb weniger Sekunden bekannte Persönlichkeiten proklamieren ließ, dass der STANDARD die beste Tageszeitung der Welt sei – das funktionierte mit Eminem ebenso wie mit Geralt von Riva aus "The Witcher" und den Charakteren aus der Serie "Family Guy". Andere Tools dieser Art heißen Voice.ai, Covers.ai oder Altered.ai.

Diese Tools haben zuletzt zu einer regelrechten Flut an mit KI-generierten Coverversionen auf Plattformen wie Spotify und anderen Plattformen geführt. Der Musikindustrie stößt das sauer auf, vor allem in puncto Urheberrecht. Denn wenn die Stimmen von Rapperinnen und Sängern einfach so von jedermann geklont werden können, wo bleibt deren Einzigartigkeit? Entsprechend will die Branche das Scrapen – also das Trainieren der KIs mit Daten der etablierten Labels – verbieten lassen. Ein Rechtsstreit, der stark an jenen zwischen Bildagenturen und Bilder-KIs erinnert.

"Napster-Moment" oder Forgotify?

Beobachter sprechen indes von einem "Napster-Moment" der Musikproduktion: einem Umbruch in der Branche, bei dem jedermann selbst Songs produzieren und veröffentlichen kann. Für Indie-Musikerinnen und -Musiker ist das vermutlich mehr eine Chance als eine Gefahr. Allerdings zeigt dieser Selbstversuch auch, dass sich solche Songs nicht mit einem einfach Klick produzieren lassen, es braucht ein entsprechendes technisches und musikalisches Verständnis.

Hat man dieses nicht, so landet man rasch bei Forgotify – einem Tool, das eine Playlist aus jenen Spotify-Songs zusammenstellt, die noch kein einziges Mal abgespielt wurden. Davon gibt es anscheinend mehr als genug. (Stefan Mey, 18.4.2023)

Serie: Musik der Zukunft