November 22, 2024

gamoha.eu

Nachrichten, ausgefallene Geschichten und Analysen zum deutschen und internationalen Geschehen. Tauchen Sie tiefer ein mit unseren Features aus Europa und darüber hinaus. Sehen Sie sich unseren 24/7-TV-Stream an.

MLow: Metas Audio-Codec mit niedriger Bitrate

MLow: Metas Audio-Codec mit niedriger Bitrate

  • Bei Meta ermöglichen wir Echtzeitkommunikation (RTC) für Milliarden von Menschen über unsere Apps, darunter WhatsApp, Instagram und Messenger.
  • Wir arbeiten daran, RTC zugänglich zu machen, indem wir jedem ein qualitativ hochwertiges Erlebnis bieten – auch denjenigen, die möglicherweise nicht über die schnellsten Verbindungen oder die neuesten Telefone verfügen.
  • Da sich im Laufe der Jahre immer mehr Menschen beim Telefonieren auf unsere Produkte verlassen, haben wir daran gearbeitet, neue Wege zu finden, um sicherzustellen, dass alle Anrufe eine solide Audioqualität haben.
  • Wir haben den Meta Low Bitrate (MLow)-Codec entwickelt: ein neues Tool, das die Audioqualität insbesondere für Benutzer mit langsamen Verbindungen verbessert.
Abbildung 1: Eine Erhöhung der Komplexität oder Bitrate verbessert normalerweise die Qualität, aber gute Codecs erzielen eine höhere Qualität und gleichen gleichzeitig die beiden anderen aus.

RTC-Produkte nutzen mehrere Schlüsselelemente, um das volle Erlebnis zu bieten, und eine wichtige Komponente sind Audio-/Video-Codecs. Diese Codecs helfen dabei, erfasste Audio-/Videodaten zu komprimieren, sodass sie effizient über das Internet an den Empfänger gesendet werden können und gleichzeitig ein Echtzeiterlebnis erhalten bleiben. Das für einen typischen Anruf erfasste Rohaudio beträgt beispielsweise 768 KBit/s (Mono, Sampling bei 48 kHz, Bittiefe 16), was moderne Codecs auf 25–30 KBit/s komprimieren können. Diese Komprimierung geht oft mit Qualitätseinbußen einher (Informationsverlust), aber gute Codecs können das Dreifache von Qualität, Bitrate und Komplexität ausgleichen, indem sie tiefe Kenntnisse über die Natur des Audiosignals sowie Psychoakustik nutzen. .

Es ist sehr schwierig, einen guten Codec zu erstellen, weshalb wir nicht oft sehen, dass neue Codecs auf den Markt kommen. Ein weiterer guter, weithin bekannter Open-Source-Codec ist Opus, der 2012 veröffentlicht wurde und sich zum Codec der Wahl für eine Vielzahl von Anwendungen im Internet entwickelt hat. Meta hat Opus für alle seine RTC-Anforderungen verwendet und es hat uns bisher gute Dienste geleistet – es hat dazu beigetragen, Milliarden von Benutzern auf der ganzen Welt qualitativ hochwertige Anrufe zu ermöglichen.

Unsere Motivation, einen neuen Codec zu entwickeln

Angesichts des enormen Umfangs der Verwendung von RTC in Meta-Produkten können wir sehen, wie sich der Codec in einer Reihe von Netzwerkszenarien verhält und wie er sich auf das Endbenutzererlebnis auswirkt. Wir haben insbesondere festgestellt, dass bei einem erheblichen Teil der Anrufe während des Anrufs oder während eines Teils davon schlechte Netzwerkverbindungen auftraten. Typischerweise erkennt der Bandwidth Estimator (BWE) die Netzwerkqualität, und wenn sich die Netzwerkqualität verschlechtert, müssen wir die Bitrate der Codec-Wiedergabe senken, um eine Netzwerküberlastung zu vermeiden und den Audiofluss aufrechtzuerhalten – was sich auf die oben erwähnte Dreifachbalance auswirkt. Erschwerend kommt hinzu, dass ein Videoanruf trotz schlechter Netzwerkqualität nicht viel Platz für Ton lässt und dazu führt, dass die Audio-Bitrate noch weiter sinkt. Der niedrigste Betriebspunkt des Opus liegt bei 6 kbps, da er im NarrowBand-Modus (0 – 4 kHz) arbeitet und nicht alle Audiofrequenzen, die menschliche Stimmen erzeugen, ausreichend aufnimmt – und daher nicht klar oder natürlich klingt. Nachfolgend finden Sie ein Beispiel dafür, wie 6-kbit/s-Opus-Audio klingt, sowie die entsprechende Referenzdatei zum Vergleich.

Siehe auch  Die NVIDIA GeForce RTX 4080 soll Gerüchten zufolge über 23 Gbit/s 16 GB GDDR6X-Speicher und eine Gesamtleistung von 340 W verfügen

Raw-Lesezeichen:

Opus @ 6 kbps NarrowBand (NB):

In den letzten Jahren haben wir die Entwicklung einiger neuer auf maschinellem Lernen (ML) basierender Audio-Codecs erlebt, die hochwertige Audiodaten bei sehr niedrigen Bitraten liefern. Im Oktober 2022 wurde die Meta veröffentlicht Codierung, der bei sehr niedrigen Bitraten eine erstaunlich klare Klangqualität erreicht. Obwohl AI/ML-basierte Codecs in der Lage sind, bei niedrigen Bitraten eine hohe Qualität zu erzielen, geht dies oft mit einem unerschwinglichen Rechenaufwand einher. Daher sind nur High-End-Mobiltelefone (teure Mobiltelefone) in der Lage, diese Codecs zuverlässig wiederzugeben, während Benutzer mit Low-End-Geräten bei niedrigen Bitraten weiterhin Probleme mit der Audioqualität haben. Der Nettoeffekt dieser neueren, rechenintensiven Codecs ist also tatsächlich auf einen kleinen Teil der Benutzer beschränkt.

Ein großer Teil unserer Nutzer nutzt immer noch Low-End-Geräte. Beispielsweise werden mehr als 20 % unserer Anrufe auf ARMv7-Geräten getätigt, und zig Millionen tägliche Anrufe auf WhatsApp werden auf Geräten getätigt, die älter als 10 Jahre sind. Angesichts der leicht verfügbaren Codec-Optionen und unseres Engagements, sicherzustellen, dass alle Benutzer – unabhängig vom verwendeten Gerät – ein qualitativ hochwertiges Anruferlebnis haben, ist es klar, dass wir einen Codec mit sehr geringen Rechenanforderungen benötigen, der dennoch hochwertige Audioqualität liefert bei diesen Geräten mit der niedrigsten Bitrate.

MLow-Codec

Wir haben Ende 2021 mit der Entwicklung eines neuen Codecs begonnen. Nach fast zwei Jahren aktiver Entwicklung und Tests sind wir stolz, dies bekannt zu geben Meta ein bisschen Bitrate-Audio-Codec, auch bekannt als MLow, der eine zweimal bessere Qualität als Opus erreicht (POLQA MOS 1,89 vs. 3,9 bei 6 kbps WB). Am wichtigsten ist, dass wir diese hohe Qualität erreichen und gleichzeitig die Rechenkomplexität von MLow beibehalten können 10 Prozent weniger als das von opus.

Siehe auch  So bereiten Sie Ihren Mac für macOS Sonoma vor

Abbildung 2 unten zeigt das MOS-Diagramm (Mean Opinion Score) auf einer Skala von 1 bis 5 und vergleicht die POLQA-Scores zwischen Opus und MLow bei verschiedenen Bitraten. Wie die Grafik zeigt, hat MLow bei den niedrigsten Bitraten einen erheblichen Vorteil gegenüber Opus, da die Qualität schneller gesättigt ist als bei Opus.

Abbildung 2: POLQA-Ergebnis beim Vergleich von Opus (WB) mit MLow bei unterschiedlichen Bitraten in einem großen Dateidatensatz.

Wir haben MLow bereits vollständig für alle Instagram- und Messenger-Anrufe eingeführt und führen es aktiv auf WhatsApp ein. Wir haben bereits eine unglaubliche Verbesserung der Benutzereinbindung aufgrund einer besseren Audioqualität festgestellt.

Hier finden Sie einige Hörbeispiele zum Anhören. Wir empfehlen Ihnen, Ihren Lieblingskopfhörer zu verwenden, um die erstaunlichen Unterschiede in der Klangqualität zu genießen.

Opus 6 kbps Hinweis Mlow 6 kbps WB Referenz

Die Möglichkeit, qualitativ hochwertiges Audio mit niedrigeren Bitraten zu kodieren, eröffnet auch effektivere Strategien zur Vorwärtsfehlerkorrektur (FEC). Im Vergleich zu Opus können wir uns mit MLow FEC-Pakete mit viel niedrigeren Bitraten leisten, was erheblich zur Verbesserung der Audioqualität in Paketverlustszenarien beiträgt.

Nachfolgend finden Sie zwei 14-kbit/s-Audiobeispiele mit einem erheblichen empfängerseitigen Paketverlust von 30 Prozent.

Urheberschaft:

Beachten Sie, dass Opus bei diesen Bitraten keine interne Korrekturkorrektur (FEC) kodieren kann. Es sind mindestens 19 Kbit/s erforderlich, um interne FEC bei einem Paketverlust von 10 Prozent zu kodieren, was sich nachteilig auf die Audiowiederherstellung auswirkt.

Mlow-Interieur

MLow basiert auf den Konzepten des klassischen CELP-Codecs (Code Excitation Linear Prediction) mit Fortschritten bei der Anregungserzeugung, Parameterquantisierung und Codierungsschemata. Abbildung 3 ist eine allgemeine Darstellung der internen Funktionsweise des Codecs. Auf der linken Seite haben wir ein Eingangssignal (rohes PCM-Audio), das in den Encoder eingespeist wird, der das Signal dann in niedrige und hohe Frequenzbänder aufteilt. Anschließend wird jedes Band einzeln verschlüsselt, wobei gemeinsam genutzte Informationen genutzt werden, um eine bessere Komprimierung zu erreichen. Alle Ausgaben werden zur weiteren Komprimierung und Erstellung einer verschlüsselten Nutzlast durch einen Bandencoder geleitet. Der Decoder macht genau das Gegenteil, wenn ihm die Last gegeben wird, Audiosignale für den Ausgang zu erzeugen.

Siehe auch  Video: Nintendo veröffentlicht neuen Werbespot für Kirby and the Forgotten Earth, Umstellung beginnt nächsten Monat
Abbildung 3: High-Level-MLow-Encoder- und Decoder-Architektur.

Mit diesen Split-Band-Verbesserungen sind wir in der Lage, High-Band mit sehr wenigen Bits zu kodieren, sodass MLow SuperWideBand (32-kHz-Abtastung) mit einer viel niedrigeren Bitrate liefern kann.

Was dann?

MLow hat die Audioqualität auf Low-End-Geräten erheblich verbessert und gleichzeitig eine durchgängige Anrufverschlüsselung gewährleistet. Wir sind wirklich begeistert von dem, was wir in den letzten zwei Jahren erreicht haben – von der Entwicklung eines neuen Codecs bis zur erfolgreichen Auslieferung an Milliarden von Benutzern auf der ganzen Welt. Wir arbeiten weiterhin an der Verbesserung der Audiowiederherstellung in Netzwerken mit starkem Paketverlust, indem wir mehr redundantes Audio herauspumpen, was uns mit MLow effizient ermöglicht. Wir freuen uns, Ihnen mehr mitzuteilen, während wir weiterhin daran arbeiten, allen unseren Benutzern das Tätigen qualitativ hochwertiger Sprachanrufe zu erleichtern.