Περίληψη
Η κατανάλωση ενέργειας αποτελεί ένα σημαντικό πρόβλημα στον τομέα της υπολογιστικής νέφους και υπολογιστικής υψηλών επιδόσεων λόγω οικονομικών και περιβαλλοντικών αιτιών. Για να εξυπηρετήσουν τις απαιτήσεις των υπολογιστικών εργασιών, τα κέντρα δεδομένων είναι εξοπλισμένα με πολυπύρηνους επεξεργαστές και μεγάλης χωρητικότητας μνήμης τυχαίας προσπέλασης, που αυξάνουν σημαντικά το ενεργειακό αποτύπωμα των υπολογιστικών κόμβων. Επομένως, η ελαχιστοποίηση της κατανάλωσης ενέργειας είναι ένα δύσκολο εγχείρημα, καθώς οι πάροχοι υπολογιστικών υποδομών χρειάζονται την ίδια στιγμή να παρέχουν την απαιτούμενη ποιότητα για τις τρέχουσες υπηρεσίες και εφαρμογές. Οι πάροχοι υποδομών υπολογιστικής νέφους είναι δεσμευμένοι με συμφωνητικά επιπέδου υπηρεσιών με τους χρήστες τους και η παραβίαση αυτών των συμφωνητικών μεταφράζεται σε κυρώσεις για τον πάροχο που αυξάνουν το λειτουργικό κόστος. Υπάρχουν διάφοροι μηχανισμοί/τεχνικές που μπορούν να μειώσουν την κατανάλωση ενέργειας των κέντρων δεδομένων, ικ ...
Η κατανάλωση ενέργειας αποτελεί ένα σημαντικό πρόβλημα στον τομέα της υπολογιστικής νέφους και υπολογιστικής υψηλών επιδόσεων λόγω οικονομικών και περιβαλλοντικών αιτιών. Για να εξυπηρετήσουν τις απαιτήσεις των υπολογιστικών εργασιών, τα κέντρα δεδομένων είναι εξοπλισμένα με πολυπύρηνους επεξεργαστές και μεγάλης χωρητικότητας μνήμης τυχαίας προσπέλασης, που αυξάνουν σημαντικά το ενεργειακό αποτύπωμα των υπολογιστικών κόμβων. Επομένως, η ελαχιστοποίηση της κατανάλωσης ενέργειας είναι ένα δύσκολο εγχείρημα, καθώς οι πάροχοι υπολογιστικών υποδομών χρειάζονται την ίδια στιγμή να παρέχουν την απαιτούμενη ποιότητα για τις τρέχουσες υπηρεσίες και εφαρμογές. Οι πάροχοι υποδομών υπολογιστικής νέφους είναι δεσμευμένοι με συμφωνητικά επιπέδου υπηρεσιών με τους χρήστες τους και η παραβίαση αυτών των συμφωνητικών μεταφράζεται σε κυρώσεις για τον πάροχο που αυξάνουν το λειτουργικό κόστος. Υπάρχουν διάφοροι μηχανισμοί/τεχνικές που μπορούν να μειώσουν την κατανάλωση ενέργειας των κέντρων δεδομένων, ικανοποιώντας ταυτόχρονα την απαιτούμενη ποιότητα υπηρεσιών. Η ανακατανομή των εικονικών μηχανών στοχεύει στην τοποθέτηση όσο το δυνατόν περισσότερων εικονικών μηχανών στους κόμβους, ιδανικά χωρίς απώλεια επίδοσης, ώστε να μειωθεί ο αριθμός των ενεργών υπολογιστικών κόμβων. Επίσης, η ετερογένεια μπορεί να βελτιώσει την ενεργειακή αποδοτικότητα των υπολογιστικών κόμβων καθώς οι επιταχυντές όπως οι κάρτες γραφικών υπερέχουν σε απόδοση ανά Watt σε σχέση με τους συμβατικούς επεξεργαστές. Αν η ετερογένεια συνδυαστεί με την προσεγγιστική υπολογιστική, τα ενεργειακά κέρδη μπορεί να είναι ευρύτερα, καθώς η χαλάρωση της ποιότητας κάποιων υπολογισμών μπορεί να ευνοήσει την ενεργειακή αποδοτικότητα, ειδικά σε ορισμένες υπολογιστικές αρχιτεκτονικές. Από την πλευρά του υλικού, οι κατασκευαστές έχουν εισάγει τη δυναμική κλιμάκωση τάσης και συχνότητας του επεξεργαστή, επιτρέποντάς τον να λειτουργεί σε πιο ενεργειακά αποδοτικά επίπεδα, όταν τα χαρακτηριστικά του υπολογιστικού φορτίου προσφέρουν αυτό το παράθυρο ευκαιρίας, χωρίς να μειώνεται η απόδοση. Ταυτόχρονα όμως, οι κατασκευαστές επεξεργαστών και μνημών τυχαίας προσπέλασης εισάγουν περιθώρια ασφαλείας στις παραμέτρους λειτουργίας των επεξεργαστών (τάση για κάθε επίπεδο συχνότητας) και των μνημών (τάση και ρυθμός ανανέωσης) για να εγγυηθούν τη σωστή λειτουργία σε δυσμενείς συνθήκες. Αυτά τα όρια ασφαλείας είναι αρκετά απαισιόδοξα για τη λειτουργία σε κοινές, ρεαλιστικές συνθήκες, και αυξάνουν αχρείαστα την κατανάλωση ενέργειας. Σε αυτή τη διατριβή, επικεντρωνόμαστε στη βελτιστοποίηση της ενεργειακής αποδοτικότητας για τους παρόχους υποδομών υπολογιστικής νέφους, χαλαρώνοντας τα περιθώρια ασφαλείας στη λειτουργία του επεξεργαστή και της μνήμης. Μοντελοποιούμε το πρόβλημα για να αξιολογήσουμε τη σχέση μείωσης του ενεργειακού κόστους και του ρίσκου πιθανών παραβιάσεων των συμφωνητικών επιπέδου υπηρεσιών, λαμβάνοντας υπόψιν τις υπολογιστικές απαιτήσεις των εικονικών μηχανών και το γεγονός ότι αυτές αλλάζουν με την πάροδο του χρόνου. Επιπλέον, εισάγουμε πολιτικές δρομολόγησης που χρησιμοποιούν αυτά τα μοντέλα και αξιοποιούν την τεχνική των μειωμένων περιθωρίων ασφαλείας των παραμέτρων λειτουργίας του επεξεργαστή και της μνήμης ώστε να μειώσουμε το ενεργειακό κόστος για τα κέντρα υπολογιστικής νέφους. Τέλος, συνδυάζουμε την ετερογένεια με την προσεγγιστική υπολογιστική για εφαρμογές υψηλών επιδόσεων και αξιολογούμε την επιλογή μεταξύ της διαχείρισης της ποιότητας του τελικού αποτελέσματος και της μείωσης του ενεργειακού αποτυπώματος αυτών των εφαρμογών. Πιο συγκεκριμένα: Μοντελοποιούμε το κόστος για τους παρόχους υποδομών υπολογιστικής νέφους μελετώντας την επίδραση συμβατικών τεχνικών όπως της δυναμικής κλιμάκωσης της συχνότητας και της τάσης του επεξεργαστή καθώς και πιο επιθετικών προσεγγίσεων όπως της μείωσης της τάσης και του υπερχρονισμού. Παρουσιάζουμε μοντέλα που εκτιμούν την πιθανότητα αστοχίας (crash) των υπολογιστικών συστημάτων για τις παραπάνω τεχνικές. Τα μοντέλα μας λαμβάνουν υπόψιν την εκτιμώμενη κατανάλωση ενέργειας των εργασιών, όπως και τις ενδεχόμενες κυρώσεις λόγω της παραβίασης των συμφωνητικών επιπέδου υπηρεσιών. Η μελέτη μας δείχνει μείωση του κόστους λειτουργίας ως και 13.31% στην περίπτωση της μείωσης της τάσης σε σχέση με την κανονική λειτουργία του επεξεργαστή. Σαν επόμενο βήμα, χρησιμοποιούμε ένα περιβάλλον προσομοίωσης για να μελετήσουμε σε κλίμακα την αξιοποίηση των μειωμένων ορίων ασφαλείας για τον επεξεργαστή για παρόχους υποδομών υπολογιστικής νέφους. Εισάγουμε μια πολιτική δρομολόγησης εικονικών μηχανών και διαχείρισης των υπολογιστικών κόμβων που εκμεταλλεύεται τα μειωμένα όρια ασφαλείας λειτουργίας του επεξεργαστή, σε συνδυασμό με τις συμβατικές τεχνικές της δυναμικής κλιμάκωσης της τάσης και της συχνότητας του επεξεργαστή και της ανακατανομής των εικονικών μηχανών. Η πολιτική βασίζεται σε αναλυτικά μοντέλα που εφαρμόζονται ανεξαρτήτως της αρχιτεκτονικής και λαμβάνουν υπόψιν το αντιστάθμισμα του ενεργειακού κόστους και του πιθανού κόστους της παραβίασης των συμφωνητικών επιπέδου υπηρεσιών. Αξιολογούμε την προσέγγισή μας και τη συγκρίνουμε με μια υπερσύγχρονη πολιτική δρομολόγησης και διαχείρισης εικονικών μηχανών. Χρησιμοποιούμε χαρακτηριστικά για τους υπολογιστικούς κόμβους που προέρχονται από τη μελέτη εμπορικών διαθέσιμων διακομιστών. Επιπλέον, για τα πειράματά μας χρησιμοποιούμε πραγματικές τιμές για την τιμή της ενέργειας και την τιμή χρέωσης των εικονικών μηχανών. Παραθέτουμε αποτελέσματα με σταθερή και δυναμικά μεταβαλλόμενη τιμή ενέργειας. Τα αποτελέσματά μας δείχνουν κέρδη ως και 17.24% και 17.72% για το συνολικό κόστος και την ενέργεια αντίστοιχα, σε σύγκριση με ανταγωνιστική πολιτική αιχμής που συνδυάζει τη δυναμική κλιμάκωση της τάσης και της συχνότητας του επεξεργαστή με την ανακατανομή των εικονικών μηχανών. Επιπλέον αξιολογούμε την επιλογή μεταξύ της ενεργειακής αποδοτικότητας και της ενδεχόμενης υπερφόρτωσης των υπολογιστικών κόμβων, στα πλαίσια της διαχείρισης της ανακατανομής εικονικών μηχανών με κοστο-κεντρικό τρόπο. Πιο συγκεκριμένα, εισάγουμε ένα μοντέλο που χρησιμοποιεί πληροφορία που συλλέγεται κατά τη διάρκεια εκτέλεσης για να διαχειριστεί το φόρτο εργασίας των υπολογιστικών κόμβων, αναγνωρίζοντας τη συσχετιζόμενη συμπεριφορά για έργα που εκτελούνται στον ίδιο υπολογιστικό κόμβο. Καθώς οι απαιτήσεις των εικονικών μηχανών δεν είναι εκ των προτέρων γνωστές, είναι σημαντικό να λαμβάνουμε υπόψιν την πρόσφατη συμπεριφορά τους ώστε να συγκλίνουμε στον επιθυμητό φόρτο για τον κάθε κόμβο. Συνδυάζουμε την προσέγγιση της μείωσης των περιθωρίων ασφαλείας για την τάση του επεξεργαστή με τη δυναμική κλιμάκωση της τάσης και της συχνότητας. Δείχνουμε πως η πολιτική μας επιτυγχάνει αποτελέσματα ταυτόσημα ή και καλύτερα σε σχέση με 2 πολιτικές αιχμής που συνδυάζουν την ανακατανομή των εικονικών μηχανών με τη δυναμική κλιμάκωση της συχνότητας και της τάσης - με τη δεύτερη ανταγωνιστική πολιτική να αξιοποιεί και αυτή την τεχνική μείωσης των περιθωρίων ασφαλείας για την τάση του επεξεργαστή. Μια σημαντική διαφορά με τις προηγούμενες πολιτικές είναι ότι η μέθοδός μας δεν απαιτεί την εκ των προτέρων -- μη ρεαλιστική -- ανάλυση των χαρακτηριστικών του φόρτου των εργασιών. Επίσης μελετούμε την αξιοποίηση των μειωμένων περιθωρίων ασφαλείας, αυτή τη φορά στις παραμέτρους λειτουργίας της μνήμης, και συγκεκριμένα στην τάση και το ρυθμό ανανέωσης. Σε αντίθεση με τους επεξεργαστές, όπου ένα λάθος κυρίως μεταφράζεται σε απότομη διακοπή λειτουργίας του συστήματος (crash), για τις μνήμες μελετούμε το φαινόμενο πιθανών ποινών λόγω των αυτοδιορθούμενων μονού- και ανιχνεύσιμων διπλού-bit σφαλμάτων. Όπως και κατά τη μελέτη για τους επεξεργαστές, εισάγουμε ένα αναλυτικό μοντέλο που εφαρμόζεται ανεξαρτήτως της αρχιτεκτονικής και μια καινοτόμα πολιτική διαχείρισης του φόρτου εργασίας και της διαμόρφωσης των παραμέτρων του συστήματος. Το μοντέλο μας λαμβάνει υπόψιν του τη διαχείριση των εικονικών μηχανών και τη ρύθμιση της μνήμης. Η πολιτική που εισάγουμε, αξιοποιεί το μοντέλο ώστε να εκμεταλλευτεί τις δυνατότητες μείωσης των ορίων ασφαλείας στις παραμέτρους λειτουργίας των μνημών, σε συνδυασμό με την ανακατανομή των εικονικών μηχανών. Δεδομένου ότι τα μελλοντικά υπολογιστικά συστήματα αναμένεται να ενσωματώνουν μεγάλη χωρητικότητα μνήμης DRAM, μελετούμε το πρόβλημα για διάφορα μεγέθη μνήμης. Και σε αυτή την περίπτωση, αξιολογούμε την προσέγγισή μας σε μεγάλη κλίμακα σε περιβάλλον προσομοίωσης, χρησιμοποιώντας πραγματικά χαρακτηριστικά των κόμβων και πραγματικές τιμές για την τιμή της ενέργειας και το κόστος των εικονικών μηχανών. Τα αποτελέσματά μας δείχνουν πως κέρδος της τάξης του 29.53% και 34.84% σε κόστος και ενέργεια αντίστοιχα μπορεί να επιτευχθεί, σε σύγκριση με ανταγωνιστική πολιτική αιχμής που εκμεταλλεύεται την ανακατανομή των εικονικών μηχανών. Τα κέρδη ενισχύονται καθώς κινούμαστε προς κόμβους με μεγαλύτερη ποσότητα μνήμης. Τέλος, μελετούμε την επιρροή της ετερογένειας και της προσεγγιστικής υπολογιστικής στο ενεργειακό αποτύπωμα εφαρμογών υπολογιστικής υψηλών επιδόσεων. Η ποιότητα του αποτελέσματος δεν επηρεάζεται με τον ίδιο τρόπο από όλους τους υπολογισμούς του προγράμματος, επομένως μπορούμε να εκτελέσουμε επιλεγμένους υπολογισμούς προσεγγιστικά για να βελτιώσουμε την ενεργειακή αποδοτικότητα. χωρίς να πλήττεται σε μεγάλο βαθμό η ποιότητα του αποτελέσματος. Σε αυτή τη μελέτη, χρησιμοποιούμε 4 εφαρμογές από διαφορετικούς τομείς, που κυμαίνονται από μεγάλες εφαρμογές μέχρι υπολογιστικούς πυρήνες. Τροποποιούμε αυτές τις εφαρμογές για να εκμεταλλευτούμε τόσο την ετερογένεια όσο και την προσεγγιστική υπολογιστική. Αξιολογούμε την προσέγγισή μας σε ετερογενή συστήματα (εξοπλισμένα με επεξεργαστές και κάρτες γραφικών) και αποτιμούμε τα οφέλη της ετερογένειας και της προσεγγιστικής υπολογιστικής, λαμβάνοντας υπόψιν την επιλογή μεταξύ της κατανάλωσης ενέργειας και της ποιότητας του αποτελέσματος. Τα αποτελέσματά μας δείχνουν πως η ετερογένεια και η προσεγγιστική υπολογιστική μπορούν να προσφέρουν συνδυασμένα ενεργειακά κέρδη.
περισσότερα
Περίληψη σε άλλη γλώσσα
Energy consumption is a critical concern in the areas of Cloud- and High-Performance Computing (HPC) due to economic and environmental reasons. To fulfill the requirements of the compute jobs they serve, modern datacentres are equipped with multi-core processors and high amounts of Dynamic Random Access Memory (DRAM), which significantly increase the energy footprint of the nodes. Therefore, the minimization of energy consumption is a challenging undertaking, as infrastructure providers need, at the same time, to meet the quality of service (QoS) requirements of the running services and applications. Cloud infrastructure providers are contractually bound with Service Level Agreements (SLAs) with their users, and the violation of SLAs translates to penalties and thus cost. There are several mechanisms/techniques that can reduce the energy consumption of the datacentres, while also considering the QoS. VM consolidation targets to pack as many VMs as possible on the nodes, ideally without ...
Energy consumption is a critical concern in the areas of Cloud- and High-Performance Computing (HPC) due to economic and environmental reasons. To fulfill the requirements of the compute jobs they serve, modern datacentres are equipped with multi-core processors and high amounts of Dynamic Random Access Memory (DRAM), which significantly increase the energy footprint of the nodes. Therefore, the minimization of energy consumption is a challenging undertaking, as infrastructure providers need, at the same time, to meet the quality of service (QoS) requirements of the running services and applications. Cloud infrastructure providers are contractually bound with Service Level Agreements (SLAs) with their users, and the violation of SLAs translates to penalties and thus cost. There are several mechanisms/techniques that can reduce the energy consumption of the datacentres, while also considering the QoS. VM consolidation targets to pack as many VMs as possible on the nodes, ideally without performance loss, in order to reduce the number of active nodes. Heterogeneity can also improve the energy efficiency of the nodes; accelerators such as GPUs are superior in terms of performance per Watt compared with the conventional CPUs. If heterogeneity is combined with approximate computing the energy gains can be even higher, as the relaxation of some calculations may introduce more energy gains and favor certain architectures. On the hardware side, manufacturers have introduced Voltage and Frequency Scaling (VFS), enabling the processor to operate at more power-efficient operating points, whenever there is an opportunity to do so without penalizing the performance. However, at the same time, CPU and DRAM manufacturers introduce guardbands to the operating parameters of the processors (supply voltage for each frequency step) and the DRAMs (supply voltage and refresh rate) to guarantee correct operation under adverse combinations of operating conditions. Those guardbands are unnecessarily wide for real-world execution scenarios and translate to increased power consumption. In this Thesis, we focus on improving the energy efficiency of cloud infrastructures by reducing hardware guardbands. We formally model the problem of dealing with the trade-off between energy cost and potential SLA violations by considering the VM requirements and the fact that they change over time. Moreover, we introduce scheduling policies that use these models and exploit reduced margins for the CPU and the DRAMs to lower the energy cost of cloud datacentres. Finally, we combine heterogeneity with approximate computing in HPC applications, and we evaluate the trade-off between the quality of output and the energy footprint of these applications. More specifically: We model the cost for cloud/edge infrastructure providers studying the effects of the conventional technique of VFS and the more aggressive approaches of voltage (undervolting) and frequency (overclocking) overscaling of the processor. We introduce models for estimating the failure rate for each of the aforementioned techniques (VFS, undervolting, overclocking). Our models capture the expected energy consumption of the tasks as well as potential penalties due to SLA violations. Our study shows up to 13.31% cost reduction in the case of undervolting compared with the operation of the processor at nominal settings. As a next step, we use a simulated environment to investigate at-scale the exploitation of reduced voltage guardbands on the processor by cloud infrastructure providers. We introduce a VM scheduling and node configuration policy that exploits operation at reduced voltage margins for the processor, on top of the combination of the conventional techniques of VFS and VM consolidation. The policy is based on an analytic and architecture-agnostic model that captures the trade-off between energy cost and potential SLA violation penalties. We evaluate our approach and compare it against a state-of-the-art scheduling and configuration policy. We use node profiles derived from the characterization of commercially available server-class systems. Moreover, for our experiments we use realistic values for the energy price and the price of VMs. We provide results with both a constant and a dynamically varying energy price. Our results show gains up to 17.24% and 17.72% for the cost and the energy, respectively, compared with a state-of-art policy that combines VFS with VM consolidation. We also explore the trade-off between energy efficiency and node overloads, to manage VM consolidation in a cost-aware manner. More specifically, we introduce a model that uses runtime information to control the load of the nodes, identifying and considering correlated behavior among collocated workloads. As the requirements of VMs are not known in advance, it is critical to consider recent VM behavior to adapt the target load for each node. We combine this approach with reduced voltage margins for the processor and VFS. We show that our policy closely matches, or even outperforms two state-of-the-art policies that combine VM consolidation with VFS – the second one, also operating the CPU at reduced voltage margins. A key differentiation with prior policies is that our method does not require an unrealistic, in-advance analysis of the characteristics of the workload. We also study the exploitation of reduced margins for the operating parameters of DRAMs, namely the supply voltage and refresh rate. In contrast with CPUs, where an error mainly translates to a system crash, for DRAMs we study the effect of potential penalties due to correctable single- and detectable double-bit errors. In analogy with the work on CPUs, we introduce an architecture-agnostic model and a novel workload management and system configuration policy. Our model captures all the aspects of VM management and DRAM configuration. The policy we introduce uses this model to exploit reduced margins of the operating parameters of DRAMs, combined with VM consolidation. As future systems will be equipped with high DRAM capacities, we study this problem for different memory sizes. We, again, evaluate our approach at-scale on a simulated environment, using realistic node parameters and realistic values for the energy price and VM pricing. Our results show that 29.53% and 34.84% cost and energy gains can be achieved, compared with a state-of-art policy that exploits VM consolidation. The gains are amplified as we move to nodes with a higher memory capacity. Finally, we examine the effect of heterogeneous and approximate computing on the energy footprint of HPC applications. Result quality is not equally affected by all computations of a program; therefore we can perform selected computations approximately to improve the energy efficiency without heavily penalizing the output quality. In our work, we use 4 applications from diverse domains, ranging from real-world applications to kernels. We modify these applications to exploit both heterogeneity and approximate computing. We evaluate our research on heterogeneous systems (equipped with CPUs and GPUs), and we quantify the benefits of heterogeneity and approximate computing, considering the trade-off between energy consumption and the quality of the output. Our results show that heterogeneity and approximate computing can offer significant energy gains.
περισσότερα