Δικτυακός τόπος για τις Τεχνολογίες Audio, Video, HiFi, High End, Home Entertainment
Greek site for Audio Video & Home Entertainment technologies
Tελευταία Ενημερωση/Last Update: Τρίτη, 26/07/2005


english abstract

Πρωτοσέλιδο Aρχείο Νέων Αρθρα Τεχνολογία HowTo Δίσκοι Αναφοράς Links Contact About

LOCATION BAR►ΤΕΧΝΟΛΟΓΙΑ►XΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ MP3 ΚΑΙ ΑΛΛΟΥΣ PERCEPTUAL CODECS...

AV BLOG 

SITE MAP

Συμπιεσμένος Ηχος:
Χρησιμοποιώντας τo ΜP3 και άλλoυς Perceptual Codecs
1. Eισαγωγή: Γιατί θέλουμε να συμπιέσουμε τον ψηφιακό ήχο;
2. Οι πρώτες προσπάθειες: PASC, ATRAC, MPEG-1 Layer II/ΙΙΙ
3. MPEG-1 Layer III (MP3): Οι τεχνικές κωδικοποίησης κατά MP3 και MP3Plus
4. Aλλοι Codecs: MPEG-2 AAC, MPEG-4 AAC, WMA, Ogg Vorbis, FLAC
5. Στην Πράξη: Κωδικοποίηση/Δημιουργία αρχείων ΜP3 (Ripping/Encoding)
6. Στην Πράξη: Aναπαραγωγή αρχείων MP3 (Playback)
7. Links
Οι codecs ΜP3 χρησιμοποιούν ως βασικό μοντέλο ακοής αυτό που βασίζεται στις καμπύλες κατωφλίου ακουστότητας (Minimal Audition Threshold). Η ανθρώπινη ακοή παρουσιάζει την μέγιστη ευαισθησία της στην περιοχή 1kHz-5kHz και έξω από τα όρια αυτά μειώνεται δραστικά.  Οι Fletcher και Munson κατασκεύασαν μία δέσμη από καμπύλες ελάχιστης ακουστότητας (οι οποίες περιγράφουν την στάθμη ηχητικής πίεσης που πρέπει να έχει ένας ήχος για να είναι μόλις ακουστός σε συνάρτηση με την συχνότητά του) όπου φαίνεται πώς η ευαισθησία της ακοής μεταβάλεται όχι μόνο με την συχνότητα αλλά και με την ένταση (loudness).  Οσο μικρότερη είναι η ένταση, τόσο μικρότερη η ευαισθησία της ακοής και τόσο μεγαλύτερη στάθμη απαιτείται για να γίνει ακουστή μία συγκεκριμένη συχνότητα.  Οι καμπύλες Fletcher/Munson προσφέρουν ένα πρώτο κριτήριο για την συμπίεση: Οι πληροφορίες κάτω από το κατώφλι ακουστότητας μπορούν να αποκοπούν από το σήμα ή, σκεπτόμενοι αντίστροφα, μπορούμε να αποθηκεύσουμε ανεπιθύμητα σήματα -όπως ο θόρυβος κβάντισης- σε περιοχές όπου το κατώφλι ακουστότητας είναι υψηλό.  Ωστόσο πολύ μεγαλύτερο ενδιαφέρον έχει το φαινόμενο της επικάλυψης (masking): Με δεδομένους δύο γειτονικούς ήχους (δηλαδή ήχους με παραπλήσιες συχνότητες) ο ισχυρότερος αλλοιώνει τοπικά την καμπύλη κατωφλίου ακουστότητας επικαλύποντας τον ασθενέστερο ο οποίος πλέον δεν γίνεται αντιληπτός από τους ακροατές.  Το μοντέλο που χρησιμοποιήται στον codec MP3 κάνει ακριβώς αυτό: Υπολογίζει σε κάθε στιγμή το φασματικό περιεχόμενο του σήματος, αποφασίζει ποιοί ήχοι επικαλύπτονται από ισχυρότερους και δεν τους κωδικοποιεί.  Σε κάθε χρονική στιγμή, ο codec έχει στην διάθεσή του έναν αριθμό ψηφίων, ο οποίος εξαρτάται από τον βαθμό συμπίεσης που του έχει ζητηθεί (δηλαδή το επιτρεπόμενο bitrate). Καθώς η συμπίεση εξελίσσεται δεν χρησιμοποιούνται όλα τα ψηφία, ιδιαίτερα αν η στιγμιαία μορφή του σήματος είναι "εύκολα" συμπιέσιμη, έτσι είναι δυνατή η συντήρηση μίας δεξαμενής ψηφιών (bits reservoir) από την οποία αντλούνται περισσότερα ψηφία για σήματα που απαιτούν μεγαλύτερη ακρίβεια στην κωδικοποίηση.
Η δέσμη καμπυλών Fletcher και Munson δείχνουν πώς μεταβάλλεται το κατώφλι ακουστότητας σε συνάρτηση με την συχνότητα και την ένταση (loudness) ενός ήχου.
Το φαινόμενο της επικάλυψης:  Ενας δυνατός ήχος, μεταβάλλει τοπικά την καμπύλη του κατωφλίου ακουστότητας, επικαλύπτοντας έναν γειτονικό αλλά αδύναμο ήχο.
Ο βασικός μηχανισμός του μοντέλου επικάλυψης, υποβοηθείται στην περίπτωση του MP3 και από δύο άλλους μηχανισμούς:
Ανάλογα με την πολυπλοκότητα του προγράμματος και τις ποιοτικές απαιτήσεις του ο χρήστης μπορεί να επιλέξει την κωδικοποίηση "Joint Stereo" κατά την οποία, κωδικοποιούνται οι μεν χαμηλές συχνότητες ως ένα μονοφωνικό κανάλι (mid channel, L+R), οι δε υψηλές (οι οποίες φέρουν κατά τεκμήριο και τις πληροφορίες για την στερεοφωνική εικόνα) σε ένα δεύτερο κανάλι ως διαφορές μεταξύ των αρχικών καναλιών (side channel, L-R). 
To τελευταίο εργαλείο για την μείωση του bitrate που χρησιμοποιεί ο codec MP3 είναι, τέλος, γνωστό ως εντροπική κωδικοποίηση (entropy coding) ένα μάλλον τρομακτικό όνομα για μία διαδικασία η οποία κωδικοποιεί τα ψηφία που προκύπτουν από τα προηγούμενα στάδια με βάση την πιθανότητα εμφάνισής τους (probability coding, κατ΄αναλογίαν με τον γραπτό λόγο, όπου κάποιες λέξεις έχουν μεγαλύτερη πιθανότητα εμφάνισης σε σχέση με άλλες).  Η εντροπική κωδικοποίηση είναι γνωστή και ως Huffman Coding και είναι μια μή-απωλεστική διαδικασία.
Από τα παραπάνω, γίνεται προφανές ότι το ψυχοακουστικό μοντέλο για την συμπίεση στην περίπτωση του MP3 "τρέχει" στο πεδίο της συχνότητας (γεγονός λογικό, αν αναλογιστεί κανείς ότι τόσο οι καμπύλες Fletcher/Munson όσο και η καμπύλη που περιγράφει το φαινόμενο της επικάλυψης έχουν ως οριζόντιο άξονα την συχνότητα.  Ωστόσο, το ηχητικό σήμα εξελίσεται στον χρόνο.  Πώς μεταφερόμαστε από το πεδίο του χρόνου στο πεδίο της συχνότητας για να κάνουμε τους υπολογισμούς μας;  Στην περίπτωση του MP3 (αλλά και των codecs MPEG-2 AAC, MPEG-4 AAC, Ogg Vorbis και AC-3 -o τελευταίος χρησιμοποιήται από το Dolby Digital) χρησιμοποιήται μία πολύπλοκη μαθηματική διαδικασία κατά την οποία το υπό κωδικοποίηση μέρος του σήματος (block) υπόκειται σε επεξεργασία από μία τράπεζα φίλτρων (filter bank) η οποία χωρίζει το φάσμα σε 32 περιοχές και στην συνέχεια σε μετασχηματισμό MDC (Μοdified Discrete Cosine Transform).  To σύνολο της διαδικασίας βασίζεται στις αρχές του μετασχηματισμού Fourier, ο οποίος αναλύει ένα σήμα εξελισσόμενο στον χρόνο σε μία σειρά συνιστωσών στο πεδίο της συχνότητας.
To διάγραμμα βαθμίδων του κωδικοποιητή MP3 (πηγή: Fraunhofer IIS)
Αυτή είναι η μαθηματική περιγραφή του μετασχηματισμού MDC.  Ο μετασχηματισμός αυτός βασίζεται στις αρχές του μετασχηματισμού Fourier και επιτρέπει την μετάβαση των υπολογισμών του codec από το πεδίο του χρόνου και τις τιμές του σήματος x στο πεδίο της συχνότητας αναπαριστώντας το σήμα με μία σειρά συντελεστές f.
Στις παραπάνω τεχνικές, προστέθηκε, το 2001, μία ακόμη, με την ονομασία SBR (Spectral Band Replication, από την Coding Technologies), μετονομάζοντας τον codec που την υποστηρίζει σε MP3Pro.  Ο τυπικός codec MP3 όταν λειτουργεί σε χαμηλά bitrates (μέχρι 96kbps, τα οποία απαιτούνται για streaming και μεταφορά δεδομένων από το διαδίκτυο) έχει σχετικά περιορισμένο εύρος συχνοτήτων που κυμαίνεται από τα 8-11kHz για bitrates 64kbps μέχρι τα 15kHz για bitrates 96kbps, μία επίδοση που είναι γνωστή και ως "FM Quality".  Η τεχνική SBR χρησιμοποιεί την μορφή του φάσματος στις χαμηλές και τις μεσαίες συχνότητες καθώς και πληροφορίες για την μορφή του φάσματος στις υψηλές που έχουν κωδικοποιηθεί μαζί με το σήμα για να δημιουργήσει εκ του μηδενός την περιοχή που λείπει.  Η τεχνική αυτή είναι πολύ αποτελεσματική αλλά απαιτεί πολύ μεγαλύτερη ισχύ επεξεργασίας: Για ένα σήμα με bitrate 64kbps (με πραγματικό εύρος 8kHz), χρησιμοποιεί τα 4kbps για την μεταφορά των παραμέτρων που περιγράφουν το φάσμα στις υψηλές συχνότητες και επιτρέπει την δημιουργία της περιοχής από τα 8kHz μέχρι τα 16kHz, απαιτώντας όμως τριπλάσια ισχύ από τον επεξεργαστή.
H τεχνική Spectral Band Replication (SBR) επιτρέπει την δημιουργία της ανώτερης περιοχής συχνοτήτων του φάσματος με την βοήθεια του κατώτερου φάσματος και μίας ομάδας παραμέτρων. (πηγή: Coding Technologies)

Πρωτοσέλιδο | Αρχείο Νέων | Αρθρα | Τεχνολογία | HowTo | Δίσκοι | Links | Contact | Αbout


©Δημήτρης Σταματάκος/Ακραίες Εκδόσεις 2005
Σχετικά με το avmentor.gr (προβλήματα, παρατηρήσεις κ.λπ): webmaster@avmentor.gr Eπαφή με την σύνταξη (ύλη, σχόλια, ερωτήσεις κ.λπ): contact@avmentor.gr