suchen
HeimBackend-EntwicklungC++Wie können wir eine Monte-Carlo-Simulation deoptimieren, um Engpässe in der Intel Sandybridge-Pipeline aufzudecken?

How Can We Deoptimize a Monte Carlo Simulation to Expose Intel Sandybridge Pipeline Bottlenecks?

Deoptimierung eines Programms für die Pipeline in CPUs der Intel Sandybridge-Familie

Das Ziel dieser Aufgabe besteht darin, ein bestimmtes Programm zu modifizieren, um es zu erstellen langsamer laufen, während der gleiche Algorithmus beibehalten wird. Dadurch soll ein tieferes Verständnis dafür erlangt werden, wie die Intel i7-Pipeline funktioniert und wie Befehlspfade neu angeordnet werden können, um Gefahren einzuführen.

Programmübersicht

Das Programm ist eine Monte-Carlo-Simulation, die europäische Vanille-Call- und -Put-Optionen bewertet. Es verwendet den Box-Muller-Algorithmus, um Gaußsche Zufallszahlen zu generieren, und führt eine große Anzahl von Simulationen durch, um die Optionspreise zu schätzen.

Teuflische Inkompetenz

Das Ziel besteht darin, absichtlich Erstellen Sie inkompetenten Code, der die Ausführung des Programms verlangsamt. Hier sind einige Ideen, die diesen Ansatz mit „teuflischer Inkompetenz“ rechtfertigen:

False Sharing

  • Erstellen Sie gemeinsame Datenstrukturen, auf die von mehreren Threads zugegriffen wird, dies aber nicht der Fall ist nicht richtig synchronisiert. Dies kann zu einem Ping-Ponging in der Cache-Zeile und zum Löschen von Fehlspekulationen in der Speicherreihenfolge führen.

Store-Forwarding-Störungen

  • Vermeiden Sie die Verwendung der „-“-Operator für Gleitkommavariablen. Stattdessen wird das High-Byte mit 0x80 XOR-verknüpft, um das Vorzeichenbit umzudrehen, was zu Verzögerungen bei der Speicherweiterleitung führt.

Übermäßige Zeitmessung

  • Zeit für jede Iteration der Hauptschleife mit einer schweren Operation wie CPUID/RDTSC, die Anweisungen serialisiert und blockiert Pipeline.

Ungünstige mathematische Operationen

  • Ersetzen Sie Multiplikationen durch Konstanten durch Divisionen durch ihren Kehrwert („zur leichteren Lesbarkeit“). Die Division ist langsamer und nicht vollständig gepipelinet.

Ineffiziente Vektorisierung

  • Vektorisieren Sie die Multiplikations-/Quadratoperationen mit AVX, verwenden Sie jedoch vzeroupper nicht vor dem Aufruf Skalare Mathematikbibliotheksfunktionen, die einen AVXSSE-Übergang verursachen bleibt stehen.

Datenstrukturen

  • Speichern Sie die RNG-Ausgabe in einer verknüpften Liste oder in Arrays, die in der falschen Reihenfolge durchlaufen werden. Machen Sie dasselbe für das Ergebnis jeder Iteration und summieren Sie es am Ende. Dies führt zu Zeigerverfolgungslasten und verhindert die Cache-Lokalität.

Multi-Threading-Missbrauch

  • Multithreading des Programms, aber erzwingen die gemeinsame Nutzung beider Threads den gleichen Schleifenzähler (mit atomaren Inkrementen), um falsches Teilen und Konflikte zu erzeugen. Dies führt auch zu unnötigem Overhead durch die atomaren Operationen.

Weitere Vorschläge

  • Führen Sie unvorhersehbare Verzweigungen ein, um Fehlvorhersagen und Pipeline-Leerungen zu erzeugen.
  • Verwenden Sie teuflisch inkompetente Begründungen, um die Länge von Schleifenabhängigkeitsketten zu erhöhen.
  • Führen Sie nicht zusammenhängende Speicherzugriffsmuster ein um die Cache-Auslastung zu minimieren.
  • Für Extras Credit:Schreiben Sie Ihren eigenen Quadratwurzelalgorithmus, um den in der Aufgabe bereitgestellten zu ersetzen.

Auswirkungen von Änderungen

Diese Änderungen werden voraussichtlich erheblich sein Verlangsamen Sie die Ausführung des Programms, indem Sie Pipeline-Störungen, Cache-Fehler und andere Leistungsengpässe verursachen. Die Aufgabe fördert die Kreativität und die Bereitschaft, verschiedene Methoden zur Pessimierung des Codes zu erkunden und dabei den ursprünglichen Algorithmus beizubehalten.

Das obige ist der detaillierte Inhalt vonWie können wir eine Monte-Carlo-Simulation deoptimieren, um Engpässe in der Intel Sandybridge-Pipeline aufzudecken?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Wie funktioniert die C -Standard -Vorlagenbibliothek (STL)?Wie funktioniert die C -Standard -Vorlagenbibliothek (STL)?Mar 12, 2025 pm 04:50 PM

In diesem Artikel werden die C -Standard -Vorlagenbibliothek (STL) erläutert, die sich auf seine Kernkomponenten konzentriert: Container, Iteratoren, Algorithmen und Funktoren. Es wird beschrieben, wie diese interagieren, um die generische Programmierung, die Verbesserung der Codeeffizienz und die Lesbarkeit t zu ermöglichen

Wie benutze ich Algorithmen aus der STL (sortieren, finden, transformieren usw.) effizient?Wie benutze ich Algorithmen aus der STL (sortieren, finden, transformieren usw.) effizient?Mar 12, 2025 pm 04:52 PM

Dieser Artikel beschreibt die effiziente Verwendung von STL -Algorithmus in c. Es betont die Auswahl der Datenstruktur (Vektoren vs. Listen), Algorithmus -Komplexitätsanalyse (z. B. std :: sortieren vs. std :: partial_sort), Iteratoranwendungen und parallele Ausführung. Häufige Fallstricke wie

Wie verwende ich RValue -Referenzen effektiv in C?Wie verwende ich RValue -Referenzen effektiv in C?Mar 18, 2025 pm 03:29 PM

Artikel erörtert den effektiven Einsatz von RValue -Referenzen in C für Bewegungssemantik, perfekte Weiterleitung und Ressourcenmanagement, wobei Best Practices und Leistungsverbesserungen hervorgehoben werden. (159 Charaktere)

Wie gehe ich effektiv mit Ausnahmen in C um?Wie gehe ich effektiv mit Ausnahmen in C um?Mar 12, 2025 pm 04:56 PM

In diesem Artikel wird die effektive Ausnahmebehandlung in C, Covering Try, Catch und Wurp Mechanics, beschrieben. Es betont Best Practices wie Raii, die Vermeidung unnötiger Fangblöcke und die Protokollierung von Ausnahmen für robusten Code. Der Artikel befasst sich auch mit Perf

C Sprachdatenstruktur: Datenrepräsentation und Betrieb von Bäumen und GrafikenC Sprachdatenstruktur: Datenrepräsentation und Betrieb von Bäumen und GrafikenApr 04, 2025 am 11:18 AM

C Sprachdatenstruktur: Die Datenrepräsentation des Baumes und des Diagramms ist eine hierarchische Datenstruktur, die aus Knoten besteht. Jeder Knoten enthält ein Datenelement und einen Zeiger auf seine untergeordneten Knoten. Der binäre Baum ist eine besondere Art von Baum. Jeder Knoten hat höchstens zwei Kinderknoten. Die Daten repräsentieren structTreenode {intdata; structTreenode*links; structTreenode*rechts;}; Die Operation erstellt einen Baumtraversalbaum (Vorbereitung, in Ordnung und späterer Reihenfolge) Suchbauminsertion-Knoten Lösches Knotendiagramm ist eine Sammlung von Datenstrukturen, wobei Elemente Scheitelpunkte sind, und sie können durch Kanten mit richtigen oder ungerechten Daten miteinander verbunden werden, die Nachbarn darstellen.

Wie verwende ich Bereiche in C 20 für ausdrucksstärkere Datenmanipulationen?Wie verwende ich Bereiche in C 20 für ausdrucksstärkere Datenmanipulationen?Mar 17, 2025 pm 12:58 PM

C 20 -Bereiche verbessern die Datenmanipulation mit Ausdruckskraft, Komposition und Effizienz. Sie vereinfachen komplexe Transformationen und integrieren sich in vorhandene Codebasen, um eine bessere Leistung und Wartbarkeit zu erhalten.

Wie verwende ich die Semantik in C, um die Leistung zu verbessern?Wie verwende ich die Semantik in C, um die Leistung zu verbessern?Mar 18, 2025 pm 03:27 PM

In dem Artikel wird die Verwendung von Move Semantics in C erörtert, um die Leistung zu verbessern, indem unnötiges Kopieren vermieden wird. Es umfasst die Implementierung von Bewegungskonstruktoren und Zuordnungsbetreibern unter Verwendung von STD :: MOVE

Wie funktioniert der dynamische Versand in C und wie wirkt sich dies auf die Leistung aus?Wie funktioniert der dynamische Versand in C und wie wirkt sich dies auf die Leistung aus?Mar 17, 2025 pm 01:08 PM

In dem Artikel wird der dynamische Versand in C, seine Leistungskosten und Optimierungsstrategien erörtert. Es unterstreicht Szenarien, in denen der dynamische Versand die Leistung beeinflusst, und vergleicht sie mit statischer Versand, wobei die Kompromisse zwischen Leistung und Betonung betont werden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Sicherer Prüfungsbrowser

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor