


Deoptimierung eines Programms für die Pipeline in CPUs der Intel Sandybridge-Familie
Das Ziel dieser Aufgabe besteht darin, ein bestimmtes Programm zu modifizieren, um es zu erstellen langsamer laufen, während der gleiche Algorithmus beibehalten wird. Dadurch soll ein tieferes Verständnis dafür erlangt werden, wie die Intel i7-Pipeline funktioniert und wie Befehlspfade neu angeordnet werden können, um Gefahren einzuführen.
Programmübersicht
Das Programm ist eine Monte-Carlo-Simulation, die europäische Vanille-Call- und -Put-Optionen bewertet. Es verwendet den Box-Muller-Algorithmus, um Gaußsche Zufallszahlen zu generieren, und führt eine große Anzahl von Simulationen durch, um die Optionspreise zu schätzen.
Teuflische Inkompetenz
Das Ziel besteht darin, absichtlich Erstellen Sie inkompetenten Code, der die Ausführung des Programms verlangsamt. Hier sind einige Ideen, die diesen Ansatz mit „teuflischer Inkompetenz“ rechtfertigen:
False Sharing
- Erstellen Sie gemeinsame Datenstrukturen, auf die von mehreren Threads zugegriffen wird, dies aber nicht der Fall ist nicht richtig synchronisiert. Dies kann zu einem Ping-Ponging in der Cache-Zeile und zum Löschen von Fehlspekulationen in der Speicherreihenfolge führen.
Store-Forwarding-Störungen
- Vermeiden Sie die Verwendung der „-“-Operator für Gleitkommavariablen. Stattdessen wird das High-Byte mit 0x80 XOR-verknüpft, um das Vorzeichenbit umzudrehen, was zu Verzögerungen bei der Speicherweiterleitung führt.
Übermäßige Zeitmessung
- Zeit für jede Iteration der Hauptschleife mit einer schweren Operation wie CPUID/RDTSC, die Anweisungen serialisiert und blockiert Pipeline.
Ungünstige mathematische Operationen
- Ersetzen Sie Multiplikationen durch Konstanten durch Divisionen durch ihren Kehrwert („zur leichteren Lesbarkeit“). Die Division ist langsamer und nicht vollständig gepipelinet.
Ineffiziente Vektorisierung
- Vektorisieren Sie die Multiplikations-/Quadratoperationen mit AVX, verwenden Sie jedoch vzeroupper nicht vor dem Aufruf Skalare Mathematikbibliotheksfunktionen, die einen AVXSSE-Übergang verursachen bleibt stehen.
Datenstrukturen
- Speichern Sie die RNG-Ausgabe in einer verknüpften Liste oder in Arrays, die in der falschen Reihenfolge durchlaufen werden. Machen Sie dasselbe für das Ergebnis jeder Iteration und summieren Sie es am Ende. Dies führt zu Zeigerverfolgungslasten und verhindert die Cache-Lokalität.
Multi-Threading-Missbrauch
- Multithreading des Programms, aber erzwingen die gemeinsame Nutzung beider Threads den gleichen Schleifenzähler (mit atomaren Inkrementen), um falsches Teilen und Konflikte zu erzeugen. Dies führt auch zu unnötigem Overhead durch die atomaren Operationen.
Weitere Vorschläge
- Führen Sie unvorhersehbare Verzweigungen ein, um Fehlvorhersagen und Pipeline-Leerungen zu erzeugen.
- Verwenden Sie teuflisch inkompetente Begründungen, um die Länge von Schleifenabhängigkeitsketten zu erhöhen.
- Führen Sie nicht zusammenhängende Speicherzugriffsmuster ein um die Cache-Auslastung zu minimieren.
- Für Extras Credit:Schreiben Sie Ihren eigenen Quadratwurzelalgorithmus, um den in der Aufgabe bereitgestellten zu ersetzen.
Auswirkungen von Änderungen
Diese Änderungen werden voraussichtlich erheblich sein Verlangsamen Sie die Ausführung des Programms, indem Sie Pipeline-Störungen, Cache-Fehler und andere Leistungsengpässe verursachen. Die Aufgabe fördert die Kreativität und die Bereitschaft, verschiedene Methoden zur Pessimierung des Codes zu erkunden und dabei den ursprünglichen Algorithmus beizubehalten.
Das obige ist der detaillierte Inhalt vonWie können wir eine Monte-Carlo-Simulation deoptimieren, um Engpässe in der Intel Sandybridge-Pipeline aufzudecken?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

In diesem Artikel werden die C -Standard -Vorlagenbibliothek (STL) erläutert, die sich auf seine Kernkomponenten konzentriert: Container, Iteratoren, Algorithmen und Funktoren. Es wird beschrieben, wie diese interagieren, um die generische Programmierung, die Verbesserung der Codeeffizienz und die Lesbarkeit t zu ermöglichen

Dieser Artikel beschreibt die effiziente Verwendung von STL -Algorithmus in c. Es betont die Auswahl der Datenstruktur (Vektoren vs. Listen), Algorithmus -Komplexitätsanalyse (z. B. std :: sortieren vs. std :: partial_sort), Iteratoranwendungen und parallele Ausführung. Häufige Fallstricke wie

Artikel erörtert den effektiven Einsatz von RValue -Referenzen in C für Bewegungssemantik, perfekte Weiterleitung und Ressourcenmanagement, wobei Best Practices und Leistungsverbesserungen hervorgehoben werden. (159 Charaktere)

In diesem Artikel wird die effektive Ausnahmebehandlung in C, Covering Try, Catch und Wurp Mechanics, beschrieben. Es betont Best Practices wie Raii, die Vermeidung unnötiger Fangblöcke und die Protokollierung von Ausnahmen für robusten Code. Der Artikel befasst sich auch mit Perf

C Sprachdatenstruktur: Die Datenrepräsentation des Baumes und des Diagramms ist eine hierarchische Datenstruktur, die aus Knoten besteht. Jeder Knoten enthält ein Datenelement und einen Zeiger auf seine untergeordneten Knoten. Der binäre Baum ist eine besondere Art von Baum. Jeder Knoten hat höchstens zwei Kinderknoten. Die Daten repräsentieren structTreenode {intdata; structTreenode*links; structTreenode*rechts;}; Die Operation erstellt einen Baumtraversalbaum (Vorbereitung, in Ordnung und späterer Reihenfolge) Suchbauminsertion-Knoten Lösches Knotendiagramm ist eine Sammlung von Datenstrukturen, wobei Elemente Scheitelpunkte sind, und sie können durch Kanten mit richtigen oder ungerechten Daten miteinander verbunden werden, die Nachbarn darstellen.

C 20 -Bereiche verbessern die Datenmanipulation mit Ausdruckskraft, Komposition und Effizienz. Sie vereinfachen komplexe Transformationen und integrieren sich in vorhandene Codebasen, um eine bessere Leistung und Wartbarkeit zu erhalten.

In dem Artikel wird die Verwendung von Move Semantics in C erörtert, um die Leistung zu verbessern, indem unnötiges Kopieren vermieden wird. Es umfasst die Implementierung von Bewegungskonstruktoren und Zuordnungsbetreibern unter Verwendung von STD :: MOVE

In dem Artikel wird der dynamische Versand in C, seine Leistungskosten und Optimierungsstrategien erörtert. Es unterstreicht Szenarien, in denen der dynamische Versand die Leistung beeinflusst, und vergleicht sie mit statischer Versand, wobei die Kompromisse zwischen Leistung und Betonung betont werden


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SAP NetWeaver Server-Adapter für Eclipse
Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor