suchen
HeimBackend-EntwicklungC++Wie erreicht man 4 FLOPs pro Zyklus auf modernen x86-64-Intel-CPUs?

How to Achieve 4 FLOPs Per Cycle on Modern x86-64 Intel CPUs?

Wie erreicht man das theoretische Maximum von 4 FLOPs pro Zyklus?

Es ist theoretisch möglich, eine Spitzenleistung von 4 Gleitkommazahlen zu erreichen Operationen (doppelte Genauigkeit) pro Zyklus auf modernen x86-64-Intel-CPUs, indem Sie Folgendes verwenden Techniken:

Optimieren von Code für SSE-Anweisungen

  • Verwenden Sie SSE-Anweisungen (Streaming SIMD Extensions), die die parallele Verarbeitung mehrerer Datenelemente ermöglichen.
  • Stellen Sie sicher, dass der Code für eine optimale SSE-Leistung richtig ausgerichtet ist.

Schleife Entrollen und Verschachteln

  • Entrollen innerer Schleifen, um die Parallelität auf Befehlsebene zu verbessern.
  • Verschachteln multipliziert und addiert, um die Pipeline-Fähigkeiten der CPU zu nutzen.

Vorgänge gruppieren in Dreier

  • Ordnen Sie Vorgänge in Dreiergruppen an, um sie an die Ausführungseinheiten einiger Intel-CPUs anzupassen. Dies ermöglicht den Wechsel zwischen Add- und Mul-Anweisungen und maximiert so den Durchsatz.

Vermeidung unnötiger Verzögerungen und Abhängigkeiten

  • Minimieren Sie Datenabhängigkeiten zwischen Anweisungen, um Verzögerungen zu vermeiden .
  • Verwenden Sie Compiler-Optimierungen (-O3 oder höher), um Unnötiges zu identifizieren und zu beseitigen Abhängigkeiten.

Beispielcode

Der folgende Codeausschnitt zeigt, wie man auf Intel Core i5- und Core i7-CPUs nahezu Spitzenleistung erreicht:

#include <emmintrin.h>
#include <omp.h>
#include <iostream>
using namespace std;

typedef unsigned long long uint64;

double test_dp_mac_SSE(double x, double y, uint64 iterations) {
    register __m128d r0, r1, r2, r3, r4, r5, r6, r7, r8, r9, rA, rB, rC, rD, rE, rF;

    // Generate starting data.
    r0 = _mm_set1_pd(x);
    r1 = _mm_set1_pd(y);

    r8 = _mm_set1_pd(-0.0);

    r2 = _mm_xor_pd(r0, r8);
    r3 = _mm_or_pd(r0, r8);
    r4 = _mm_andnot_pd(r8, r0);
    r5 = _mm_mul_pd(r1, _mm_set1_pd(0.37796447300922722721));
    r6 = _mm_mul_pd(r1, _mm_set1_pd(0.24253562503633297352));
    r7 = _mm_mul_pd(r1, _mm_set1_pd(4.1231056256176605498));
    r8 = _mm_add_pd(r0, _mm_set1_pd(0.37796447300922722721));
    r9 = _mm_add_pd(r1, _mm_set1_pd(0.24253562503633297352));
    rA = _mm_sub_pd(r0, _mm_set1_pd(4.1231056256176605498));
    rB = _mm_sub_pd(r1, _mm_set1_pd(4.1231056256176605498));

    rC = _mm_set1_pd(1.4142135623730950488);
    rD = _mm_set1_pd(1.7320508075688772935);
    rE = _mm_set1_pd(0.57735026918962576451);
    rF = _mm_set1_pd(0.70710678118654752440);

    uint64 iMASK = 0x800fffffffffffffull;
    __m128d MASK = _mm_set1_pd(*(double*)&iMASK);
    __m128d vONE = _mm_set1_pd(1.0);

    uint64 c = 0;
    while (c </iostream></omp.h></emmintrin.h>

Das obige ist der detaillierte Inhalt vonWie erreicht man 4 FLOPs pro Zyklus auf modernen x86-64-Intel-CPUs?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
C# vs. c: Objektorientierte Programmierung und FunktionenC# vs. c: Objektorientierte Programmierung und FunktionenApr 17, 2025 am 12:02 AM

Es gibt signifikante Unterschiede in der Implementierung von C# und C in der objektorientierten Programmierung (OOP). 1) Die Klassendefinition und die Syntax von C# sind prägnanter und unterstützen erweiterte Funktionen wie Linq. 2) C bietet eine feinere granulare Kontrolle, die für die Systemprogrammierung und den hohen Leistungsbedarf geeignet ist. Beide haben ihre eigenen Vorteile, und die Wahl sollte auf dem spezifischen Anwendungsszenario basieren.

Von XML zu C: Datenumwandlung und -manipulationVon XML zu C: Datenumwandlung und -manipulationApr 16, 2025 am 12:08 AM

Das Konvertieren von XML in C und die Durchführung von Datenvorgängen kann in den folgenden Schritten erreicht werden: 1) Parsing XML -Dateien mithilfe der TinyXML2 -Bibliothek, 2) Daten in die Datenstruktur von C mithilfe der C -Standardbibliothek wie STD :: Vector für Datenoperationen in C -Datenstruktur zuzuordnen. Durch diese Schritte können Daten aus XML konvertiert und effizient bearbeitet werden.

C# gegen C: Speicherverwaltung und MüllsammlungC# gegen C: Speicherverwaltung und MüllsammlungApr 15, 2025 am 12:16 AM

C# verwendet den automatischen Müllsammlungsmechanismus, während C die manuelle Speicherverwaltung verwendet. Der Müllkollektor von 1. C#verwaltet automatisch den Speicher, um das Risiko eines Speicherlecks zu verringern, kann jedoch zu einer Leistungsverschlechterung führen. 2.C bietet eine flexible Speicherregelung, die für Anwendungen geeignet ist, die eine feine Verwaltung erfordern, aber mit Vorsicht behandelt werden sollten, um Speicherleckage zu vermeiden.

Jenseits des Hype: Beurteilung der Relevanz von C heute heuteJenseits des Hype: Beurteilung der Relevanz von C heute heuteApr 14, 2025 am 12:01 AM

C hat immer noch wichtige Relevanz für die moderne Programmierung. 1) Hochleistungs- und direkte Hardware-Betriebsfunktionen machen es zur ersten Wahl in den Bereichen Spieleentwicklung, eingebettete Systeme und Hochleistungs-Computing. 2) Reiche Programmierparadigmen und moderne Funktionen wie Smart -Zeiger und Vorlagenprogrammierung verbessern seine Flexibilität und Effizienz. Obwohl die Lernkurve steil ist, machen sie im heutigen Programmierökosystem immer noch wichtig.

Die C -Community: Ressourcen, Unterstützung und EntwicklungDie C -Community: Ressourcen, Unterstützung und EntwicklungApr 13, 2025 am 12:01 AM

C -Lernende und Entwickler können Ressourcen und Unterstützung von Stackoverflow, Reddits R/CPP -Community, Coursera und EDX -Kursen, Open -Source -Projekten zu Github, professionellen Beratungsdiensten und CPPCON erhalten. 1. Stackoverflow gibt Antworten auf technische Fragen. 2. Die R/CPP -Community von Reddit teilt die neuesten Nachrichten; 3.. Coursera und EDX bieten formelle C -Kurse; 4. Open Source -Projekte auf Github wie LLVM und Boost verbessern die Fähigkeiten; 5. Professionelle Beratungsdienste wie Jetbrains und Perforce bieten technische Unterstützung; 6. CPPCON und andere Konferenzen helfen Karrieren

C# vs. c: Wo sich jede Sprache auszeichnetC# vs. c: Wo sich jede Sprache auszeichnetApr 12, 2025 am 12:08 AM

C# eignet sich für Projekte, die eine hohe Entwicklungseffizienz und plattformübergreifende Unterstützung erfordern, während C für Anwendungen geeignet ist, die eine hohe Leistung und die zugrunde liegende Kontrolle erfordern. 1) C# vereinfacht die Entwicklung, bietet Müllsammlung und reichhaltige Klassenbibliotheken, die für Anwendungen auf Unternehmensebene geeignet sind. 2) C ermöglicht den direkten Speicherbetrieb, der für Spielentwicklung und Hochleistungs-Computing geeignet ist.

Die fortgesetzte Verwendung von C: Gründe für seine AusdauerDie fortgesetzte Verwendung von C: Gründe für seine AusdauerApr 11, 2025 am 12:02 AM

C Gründe für die kontinuierliche Verwendung sind seine hohe Leistung, breite Anwendung und sich weiterentwickelnde Eigenschaften. 1) Leistung mit hoher Effizienz. 2) weit verbreitete: Glanz in den Feldern der Spieleentwicklung, eingebettete Systeme usw. 3) Kontinuierliche Entwicklung: Seit seiner Veröffentlichung im Jahr 1983 hat C weiterhin neue Funktionen hinzugefügt, um seine Wettbewerbsfähigkeit aufrechtzuerhalten.

Die Zukunft von C und XML: aufkommende Trends und TechnologienDie Zukunft von C und XML: aufkommende Trends und TechnologienApr 10, 2025 am 09:28 AM

Die zukünftigen Entwicklungstrends von C und XML sind: 1) C werden neue Funktionen wie Module, Konzepte und Coroutinen in den Standards C 20 und C 23 einführen, um die Programmierungseffizienz und -sicherheit zu verbessern. 2) XML nimmt weiterhin eine wichtige Position in den Datenaustausch- und Konfigurationsdateien ein, steht jedoch vor den Herausforderungen von JSON und YAML und entwickelt sich in einer prägnanteren und einfacheren Analyse wie die Verbesserungen von XMLSchema1.1 und XPATH3.1.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

Sicherer Prüfungsbrowser

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),