Wie man mit kostenlosen KI-Tools einen eigenen Hip-Hop-Song produziert

Mit Snoop Dogg kann die künstliche Intelligenz noch nicht mithalten.

Zuerst Raubkopien, dann Streaming, jetzt künstliche Intelligenz und dazwischen andere kleine Revolutionen: Die Musikszene gehört zu jenen Bereichen der Kreativbranche, die besonders stark von technologischen Umbrüchen betroffen sind und sich entsprechend nicht nur künstlerisch, sondern auch methodisch stets neu erfinden müssen. So ist der österreichische Musikmarkt vor allem dank Streamings zuletzt wieder gewachsen, während wir vor einer Woche an dieser Stelle erste KI-Tools vorgestellt haben, die bei der Produktion neuer Songs helfen können.

Ein Hip-Hop-Track für den STANDARD

Diese Erkenntnisse habe ich in einem Do-it-yourself-Projekt nun in die Tat umgesetzt und versucht, mit KI-Tools einen eigenen Song zu produzieren. Dabei habe ich mir einige Vorgaben gesetzt, um der Community das Nachbasteln zu erleichtern.

Etwa sollten die Tools kostenlos verfügbar sein, auch Laien sollte die Bedienung halbwegs leicht fallen, und möglichst viele Arbeitsschritte sollten sich auf mobilen Geräten vornehmen lassen – sodass man sich auch unterwegs austoben kann, wenn man etwa auf den Bus wartet. Die hier vorgestellten Tools stellen dabei nur eine kleine Auswahl aus ersten Experimentierschritten dar – für weitere Tipps in den Kommentaren der Community bin ich dankbar.

Als Endergebnis sollte ein Hip-Hop-Song entstehen, der im besten Gangster-Style zementiert, dass der STANDARD die beste Tageszeitung des Landes ist. Die Wahl fiel auf Hip-Hop, weil hier noch am ehesten Text-to-Speech-Generatoren genutzt werden können, während diese bei Gesang auf jeden Fall versagen würden.

Vorweggenommen: So hört sich das Endergebnis an.

Hip-Hop-Text via KI erstellen

Die unterschiedlichen KIs sollten mir in diesem Prozess möglichst viel Arbeit abnehmen, vom Songwriting bis zum Mastering sollten möglichst viele Aufgaben automatisiert werden. Der erste Schritt führte mich dabei zu einem Tool, dessen Konzept in der Vergangenheit die Schlagzeilen dominierte: eine generative Text-KI, welche die Songzeilen erstellte.

Zum Einsatz kam dabei nicht das allseits bekannte ChatGPT, sondern das eher weniger bekannte Chatsonic. Dieses hat gegenüber dem Konkurrenten unter anderem den Vorteil, auch aktuelle Inhalte einfügen zu können und weniger oft ausgelastet zu sein. Die mobile Website lässt sich auch vom Smartphone aus mit Befehlen füttern.

Ich entschied mich für den recht simplen Prompt: "Write three Verses and one chorus of a Hip Hop Song. The Song should decribe why der Standard is the best newspaper in Austria. Write it in the Style of American Gangster Hip Hop." ("Schreibe drei Strophen und einen Refrain für einen Hip-Hop-Song. Der Song sollte beschreiben, warum DER STANDARD die beste Zeitung Österreichs ist. Schreibe den Song im Stil von amerikanischem Gangster-Hip-Hop).

Das Ergebnis:

Strophe1:

Everybody say they got the hottest news,

but they ain't got nothing like The Standard do

Too many publications out there gonna give you the blues,

when you take a look at the quality they put through

Refrain:

Hey Der Standard, that's the only one I know

Gonna get you the facts, gonna get you the show

Hey Der Standard, that's the only one I know

Gonna get you the facts, gonna keep you in the flow

Strophe 2:

Gotta keep it real, you know it's gonna be major

No other newspaper got the kind of flavor

The Standard is the one that's gonna keep you on the up and up

Gonna take you where the truth and facts start to erupt

Strophe 3:

No need to search no more, you already know

The Standard got the whole city talking 'bout the truth and the flow

From the papers to the online edition, you know the people's reviews

The Standard got the whole world locked in and you know it's true

Sonderlich kreativ sind diese Texte zwar nicht, aber sie erfüllen ihren Zweck – und wer sagt schon, dass Lyrics einfallsreich sein müssen, um damit im Radio zu landen? Eben. Ich habe die Texte somit unverändert übernommen. Wer etwas mehr Arbeit in die eigenen Prompts stecken und somit bessere Ergebnisse erzielen möchte, der findet unter diesem Link ein paar nützliche Tipps.

Eleven Labs lässt Text zum Rap werden

Wie verwandeln wir diesen Text nun in gesprochene Sprache? Zu diesem Zweck gibt es bereits seit Ewigkeiten Text-to-Speech-Generatoren, der bekannteste von ihnen ist der bereits seit Windows 2000 und Windows XP verfügbare Microsoft Sam. Dieser ist aber längst nicht mehr Status quo und klingt im Vergleich zu anderen Lösungen äußerst hölzern.

Für Schlagzeilen sorgte zuletzt hingegen Prime Voice AI von Eleven Labs, wenn auch nicht unbedingt für positive: So hatten Internettrolle das Tool genutzt, um die Stimme der Schauspielerin Emma Watson zu fälschen und Passagen aus Adolf Hitlers "Mein Kampf" lesen zu lassen.

Der Anbieter hat reagiert, das Klonen von Stimmen ist nur noch gegen Bezahlung möglich, sehr wohl gratis verfügbar ist aber die Möglichkeit, den Text mit Standardstimmen sprechen zu lassen.

Hier stehen diverse männliche und weibliche Stimmen zur Verfügung, nach Anmeldung kann auch bestimmt werden, wie sehr die Stimmlage beim Sprechen variieren soll. Das Ergebnis lässt sich anschließend als MP3 herunterladen. Die Website ist responsive und lässt sich daher auch auf mobilen Geräte bedienen.

Zwischenfazit auch an dieser Stelle: Ein Eminem oder Snoop Dogg findet sich in den KI-Stimmen nicht. Aber besser als Microsoft Sam ist es allemal.

Beats und Melodie via KI erstellen

Damit wäre der Part des Rappers erledigt. Wie schaut es nun mit der Musik aus? Hierfür sind diverse Tools wie Googles Music LM in Entwicklung, auf dem PC liefern kostenpflichtige Tools wie Audiocipher und Soundraw auf Befehl diverse Melodien, die anschließend bearbeitet werden können. Doch gibt es auch kostenlose Tools, die sich mobile nutzen lassen?

Nach einer kurzen Internetsuche führt der Weg zu einem Anbieter mit dem klingenden Namen Dopeloop, der neben diversen anderen Audiotools auch einen AI Melody Generator im Angebot hat. Diesen gibt es als kostenpflichtige App, er lässt sich aber auch gratis und ohne Anmeldung über die responsive Website nutzen.

Hier lassen sich die Länge des Samples ebenso wie die der Grundton und die Tonleiter einstellen. Die Bandbreite der Tonleitern ist recht groß und reicht neben in Europa üblichen Standards bis zu ägyptischen und balinesischen Tonleitern. Der Einfachheit halber habe ich mich für eine "Major Pentatonic"-Tonleiter entschieden, wie sie in westlichen Popsongs nicht unüblich ist.

Das Ergebnis lässt sich als MIDI-Datei auf dem Handy oder PC speichern. Zur Erinnerung: Bei MIDI-Dateien handelt es sich nicht um fertige Audiosongs, sondern um Befehle an den Computer, sodass dieser weiß, wann er welche Note in welcher Länge spielen muss.

Zusammenfügen und Mixen in Garageband

Im nächsten Schritt ging es darum, diese einzelnen Puzzlestücke zu einem Gesamtwerk zusammenzufügen. Zu diesem Zweck bedient man sich sogenannter Digital Audio Workstations (DAWs): Vereinfacht gesagt sind das Programme, mit denen die einzelnen Instrumente und der Gesang auf jeweils einzelnen Spuren abgelegt und gemeinsam abgespielt werden können. Dabei können etliche Einstellungen, etwa an der Lautstärke der einzelnen Instrumente, vorgenommen und die Tracks mit Effekten versehen werden. Am Ende wird der abgemischte Song produziert.

Für den PC gibt es hier eine große Bandbreite an Programmen, vom kostenlosen Audacity bis zum kostenpflichtigen Cubase in verschiedenen Ausführungen und Preisklassen. Auf mobilen Geräten wiederum trennt sich die Spreu vom Weizen: Während auf Android-Geräten die Apps entweder recht teuer oder vor lauter Werbung komplett unbrauchbar sind, können iPhone-Fans auf Apples kostenlose App Garageband zugreifen.

Auf dieser habe ich den Song auch abgemischt – und zwar wohlgemerkt nicht auf einem High-End-Gerät, sondern auf einem günstigen iPhone SE, wie es viele Unternehmen ihrer Belegschaft zur Verfügung stellen. Da dies der einzige wirkliche menschliche Arbeitsschritt im gesamten Prozess ist, sei er hier nur kurz erklärt.

Konkret habe ich die MIDI-Datei eingefügt und vier unterschiedliche Instrumente – Bass, Schlagzeug, Keyboard, Streicher – damit spielen lassen. Die Rap-Parts habe ich jeweils zu Beginn eines Taktes eingefügt und gehofft, dass sie halbwegs im Rhythmus sind. Und schließlich habe ich den Refrain noch mit einem integrierten Garageband-Effekt versehen.

KI-Mastering via Songmastr

Wenig Energie habe ich in das Mixing gesteckt, also das Abstimmen einzelner Lautstärken aufeinander. Denn hier hatte ich auch ein wenig die Hoffnung, dass die KI meine Fehler ausgleicht, indem sie das Mastering – also die Feinabstimmung des Gesamtwerks – übernimmt. Hier gibt es verschiedene Angebote, und ich entschied mich für Songmastr, da dieser ein kostenloses Probekontingent zur Verfügung stellt.

Hier werden der eigene Song als MP3 sowie ein Referenzsong hochgeladen, an dem sich die Art des Masterings orientieren soll. "Stan" von Eminem schien mir in diesem Fall angebracht. Im finalen Werk erkenne ich davon zwar nicht viel wieder, aber das dürfte wie gesagt auch an meiner schlechten menschlichen Vorarbeit liegen.

Fazit: Was sagt der Experte?

So. Fertig. Würde man mich fragen, wie ich das Endergebnis finde, so würde ich antworten: Ein Chartstürmer wird es nicht, aber der Versuch zeigt deutlich, was mit diesen Tools möglich ist: Auch kleine Studios und Hobbymusikerinnen können damit unterwegs erste Songs draften, um sie später im Studio weiterzuentwickeln. Und dafür, dass ich weniger als eine Stunde in das gesamte Projekt gesteckt habe, ist es doch ganz okay.

Das finde zumindest ich. Aber was zählt schon meine Meinung? Um das Werk professionell beurteilen zu lassen, habe ich unseren Musikkritiker Karl Fluch um ein ehrliches Urteil gebeten. Dieses fällt folgendermaßen aus:

Auf die Gefahr hin, das eigene Nest zu beschmutzen, muss man sagen, dass dieser KI-generierte Track den Trackshittaz späte Gerechtigkeit widerfahren lässt: So schlecht war "Woki mit deim Popo" gar nicht. Es erinnert daran, dass mit der Wahl Donald Trumps George W. Bush plötzlich wie ein Intellektueller dagestanden ist.

Die arbeitgeberloyale Message stammt offenbar aus dem Umfeld der Naive Tongue – oder aus der Floskelsammlung von Bewerbungsschreiben. Der Beat, wenn man dieses Wort strapazieren möchte, wäre dem Tribe Called Quatsch zuzurechnen, ein durchziehendes Defizit ist das Ausbleiben von so etwas wie Funk oder De La Soul.

Vom Flow her erinnert es an den Strache-Rap, wenn sich noch jemand erinnert. Das war ein schlechter Musiker, der es als Politiker versucht hat. Ging letztlich nicht gut. Der Rezensent hat nun einen Termin, HNO, Gehörgangsdusche. Peace, wie wir B-Boys sagen.

Okay, ich sehe schon: Bis aus mir wirklich ein fetter Hip-Hop-Producer wird, muss ich mich noch a bisserl mehr anstrengen. Und vielleicht noch ein paar andere Tools ausprobieren. Aber was nicht ist, das kann ja noch werden. Peace out. (Stefan Mey, 18.2.2023)

Do it yourself