cache coherence

Discussion:

cache coherence

(zu alt für eine Antwort)

Jan Bruns

2014-12-04 04:57:56 UTC

Hallo.

Ich hab da mal eine Frage zum Thema "cache coherence"
zwischen CPU Kernen: Wie verlässlich und in welcher
Absolutheit ist eine solche denn inzwischen
üblicherweise (d.h. hier auch: low budget) gegeben?

Also Anlass zu der Frage ist eigentlich nur, daß halt
irgendwelcher Code von und bei mir nicht so
funktioniert, wie gewünscht, was nun mit ganz hoher
Wahrscheinlichkeit auch an diesem Code liegen kann.

Auf der anderen Seite ist das aber einfach ein Thema,
das neu für mich ist, so daß ich da einfach zu wenig
Erfahrungswerte bzgl. realer Hardware habe (und
im Zweifel ist letztere ja auch nur so sorgfältig
gestaltet, daß "Fehler" nicht so auffallen).

Also ich stelle mal unten das wichtigste vom Code
dazu, dann ist das nicht so abstrakt. Die Idee war,
für eine (grosse) Sammlung von Objekten Threadlocks
zur Verfügung zu stellen, also eine "freiwillige",
Möglichkeit für Threads, jeweils exclusiv Zugriff
zu Objekten zu erhalten (mit dem Risiko, beim
"Antrag" erstmal eingeschläfert zu werden).

Dazu gibt's für jedes Objekt ein int32, das über
Compare-and-Swap Operationen mit Informationen hält:
zu Lock-holder, Lock-count (ein Thread bzw.
AccessPoint-Object darf das Objekt mehrfach locken),
sowie einen Schlüssel zu Informationen über
auf das Objekt wartende AccessPoints.

Im Prinzip scheints zu funktionieren, aber so etwa
einmal pro 1Mio. Lock-Operationen sieht es
zumindest symptomatisch so aus, als würde die
Compare-and-Swap Operation unerlaubt swappen (der
erste wartende Thread wird korrekt geweckt, hat aber
das Lock dann gar nicht, und bekommt es auch nicht
mehr).

Also eh' ich jetzt noch weiter rumlaber, kippe
ich mal den Code ab. Vielleicht hat ja wer 'ne Idee
(Barrieren um die InterlockedOPs habe ich schon
probiert, obwohl die Massenahme nicht gut zur
Symptomatik passt).

Gruss

Jan bruns

procedure TparlocCol.lockObj(o : Toid; ap : TparlocAP);
var ap2 : TparlocAP; a, wc, old : longint; lv : Plongint;
begin
RTLeventResetEvent(ap.locksig);
lv := locate_locvar(o);
repeat
// assume there currently is no lock
a := (ap.id shl lsb_lock_holder) + 1;
old := InterlockedCompareExchange(lv^,a,0);
if (old=0) then break
else begin
a := (old shr lsb_lock_holder) and apidmask;
if (a = ap.id) then begin
{ we already have the lock. just inc. }
a := old and lockcountmask;
if (a>=lockcountlimit) then begin
raise parlocAPexcpt.Create('Too many locks on object.');
end else begin
a := InterlockedCompareExchange(lv^,old+1,old);
if (a=old) then break;
end;
end else begin
{ another AP has the lock. try linking into
the chain of waiters. }
wc := (old shr lsb_lock_waiter) and apidmask;
if (wc=0) then begin
wc := start_new_waitchain(o,ap);
a := old or (wc shl lsb_lock_waiter);
a := InterlockedCompareExchange(lv^,a,old);
if (a=old) then begin
unlock_waitchain(wc);
wait_waitchain(wc,o,ap);
break;
end else discard_waitchain(wc); // and retry
end else begin
if try_append_waitchain(wc,o,ap) then begin
wait_waitchain(wc,o,ap);
break;
end; // else retry
end;
end;
end;
until false;
end;

procedure TparlocCol.unlockObj(o : Toid; ap : TparlocAP);
var ap2 : TparlocAP; a, old, wc, wc2 : longint; lv : Plongint;
begin
lv := locate_locvar(o);
repeat
// assume we had a single lock with no waiters
a := (ap.id shl lsb_lock_holder) + 1;
old := InterlockedCompareExchange(lv^,0,a);
if not(old=a) then begin
a := (old shr lsb_lock_holder) and apidmask;
if (a=ap.id) then begin
a := old and lockcountmask;
if (a>1) then begin
// we had locked the object more than 1 time
InterLockedDecrement(lv^);
break;
end else if (a=1) then begin
{ give the lock to the first waiter. }
wc := (old shr lsb_lock_waiter) and apidmask;
if (wc=0) then begin
raise parlocAPexcpt.Create('No waiters or not?');
end else begin
lock_waitchain(wc); // forced, waited
ap2 := get_first_waiter(wc); // no remove
wc2 := decide_keep_waitchain(wc); // wc, or 0, if waiting<2
a := (ap2.id shl lsb_lock_holder);
a := a or (wc2 shl lsb_lock_waiter);
a := a +1;
a := InterlockedCompareExchange(lv^,a,old);
if not(a=old) then begin
raise parlocAPexcpt.Create('Unexpected lockvar mod during unlock.');
end else begin
if (wc2=0) then begin
discard_waitchain(wc);
end else begin
remove_first_waiter(wc);
unlock_waitchain(wc);
end;
RTLeventSetEvent(ap2.locksig); // wake up the oldest waiting thread
break;
end;
end;
end else begin
raise parlocAPexcpt.Create('Unclean reach of lockcnt=0.');
end;
end else begin
raise parlocAPexcpt.Create('Non-Owner attempt to unlock.');
end;
end else break; // initial assumption correct
until false;
end;

Bernhard Schornak

2014-12-04 13:57:26 UTC

Permalink

Post by Jan Bruns
procedure TparlocCol.lockObj(o : Toid; ap : TparlocAP);
var ap2 : TparlocAP; a, wc, old : longint; lv : Plongint;
begin
RTLeventResetEvent(ap.locksig);
lv := locate_locvar(o);
repeat
// assume there currently is no lock
a := (ap.id shl lsb_lock_holder) + 1;
old := InterlockedCompareExchange(lv^,a,0);
if (old=0) then break
else begin
a := (old shr lsb_lock_holder) and apidmask;
if (a = ap.id) then begin
{ we already have the lock. just inc. }
a := old and lockcountmask;
if (a>=lockcountlimit) then begin
raise parlocAPexcpt.Create('Too many locks on object.');
end else begin
a := InterlockedCompareExchange(lv^,old+1,old);
if (a=old) then break;
end;
end else begin
{ another AP has the lock. try linking into
the chain of waiters. }
wc := (old shr lsb_lock_waiter) and apidmask;
if (wc=0) then begin
wc := start_new_waitchain(o,ap);
a := old or (wc shl lsb_lock_waiter);
a := InterlockedCompareExchange(lv^,a,old);
if (a=old) then begin
unlock_waitchain(wc);
wait_waitchain(wc,o,ap);
break;
end else discard_waitchain(wc); // and retry
end else begin
if try_append_waitchain(wc,o,ap) then begin
wait_waitchain(wc,o,ap);
break;
end; // else retry
end;
end;
end;
until false;
end;

<schnipp>

Mit Sicherheit weder x86 noch 68k Opcodes. Auch HLA oder
RosAsm schaut anders aus. Gibt es auch einen Link zu dem
"Assembler", der mit solch einer merkwürdig formatierten
Mischung aus Text und Hokuspokus etwas anfangen kann?

Zum Thema gibt es grundlegend

http://de.wikipedia.org/wiki/Cache-Koh%C3%A4renz

und vertiefend Kapitel 7.3 in AMDs "AMD64 Architecture
Programmers Manual, Volume 2: System Programming" oder
"Intel 64 and IA-32 Architectures Software Developer’s
Manual", Volume 3a, Kapitel 11.

Aus diesen Dokumenten geht eindeutig hervor, dass x86-
Programmierer nicht direkten Einfluss auf die Kohärenz
der diversen Cachehierarchien nehmen können. Auch 68k-
Systeme mit mehreren Prozessoren dürften die möglichen
Kohärenz-Probleme mit einer hardwareseitigen Steuerung
über ihren Chipsatz lösen, da softwareseitige Lösungen
viel zu träge wären, um derlei Aufgaben in Echtzeit zu
erledigen. Eine softwareseitige Lösung könnte nur über
MSRs (Machine State Register) realisiert werden. Diese
müssten von allen Prozessoren ansprechbar sein, was zu
reichlich komplexen Verwaltungsstrukturen - mit daraus
resultierender Entschleunigung - führen würde. Heutige
MSRs haben Zugriffszeiten von zwei- oder dreistelligen
Taktzyklen. Je nach dem, wie viele Prozessoren auf ein
MSR zugreifen, erhöht sich die Zugriffszeit drastisch.
Die interne Lösung regelt das Problem in wenigen Takt-
zyklen. Sie ist für System- und Anwendungsprogramierer
zudem transparent.

Grüsse aus Augsburg

Bernhard Schornak

Jan Bruns

2014-12-04 20:50:15 UTC

Permalink

Mit Sicherheit weder x86 noch 68k Opcodes. Auch HLA oder RosAsm schaut
anders aus. Gibt es auch einen Link zu dem "Assembler", der mit solch
einer merkwürdig formatierten Mischung aus Text und Hokuspokus etwas
anfangen kann?

Eingesetzter Compiler war http://freepascal.org

Der gezeigte Code besteht ja fast ausschliesslich
aus Calls. Die hier wichtigsten (Interlocked*)
Operationen wurden für AMD64 ebenfalls in calls
übersetzt, und zwar zur "System-Unit" des Compilers
(dort bspw. mit "lock cmpxchg" umgesetzt).
Möglicherweise aus Rücksichtnahme auf Zielsysteme,
bei denen diese Operationen nicht mit Einzel-
instruktionen umzusetzen sind. Weiter tauchen
mit (RTLevent*) einige in OS-calls übersetzte
Aufrufe auf, sowie überwiegend Aufrufe zu weiteren,
nicht gezeigten Methoden des Objekts.

Was die Formatierung betrifft (sofern die bei
Dir richtig angezeigt wurde, im Zitat er scheint
die jedenfalls korrekt): Die hat tatsächlich eine
ungewöhnlich ausgeprägte persönliche Note, folgt
aber einem ausgetüfteltem System, das ist
zweckmässig so.

Zum Thema gibt es grundlegend
http://de.wikipedia.org/wiki/Cache-Koh%C3%A4renz

Kenne ich. Also nicht so auswendig, daß diese
ganzen Begriffe mit all ihren Implikationen jederzeit
voll präsent wären, aber ich habe z.B. in 'nem FPGA
schon einen (unicore) Cache implementiert.

und vertiefend Kapitel 7.3 in AMDs "AMD64 Architecture Programmers
Manual, Volume 2: System Programming" oder "Intel 64 and IA-32
Architectures Software Developer’s Manual", Volume 3a, Kapitel 11.

Aus diesen Dokumenten geht hervor, daß im Sinne
meiner Fragestellung eine ganz und gar absolute
Cache-Kohärenz zu den Idealen der CPU-Entwickler
zählt. Hast Du vielleicht auch noch einen Link
auf die Bug-Report Liste zur Wald-und-Wiesen-CPU?

Aus diesen Dokumenten geht eindeutig hervor, dass x86- Programmierer
nicht direkten Einfluss auf die Kohärenz der diversen Cachehierarchien
nehmen können.
Auch 68k- Systeme mit mehreren Prozessoren dürften die
möglichen Kohärenz-Probleme mit einer hardwareseitigen Steuerung über
ihren Chipsatz lösen, da softwareseitige Lösungen viel zu träge wären,
um derlei Aufgaben in Echtzeit zu erledigen.

Äh. User-Land und "Einfluss auf die Cache Kohärenz"
sind doch nun wirklich Begriffe, denen man auch
intuitiv kein Zusammenpassen andeutet.

Gruss

Jan Bruns

Bernhard Schornak

2014-12-04 23:09:35 UTC

Permalink

Post by Jan Bruns

Eingesetzter Compiler war http://freepascal.org
Der gezeigte Code besteht ja fast ausschliesslich
aus Calls. Die hier wichtigsten (Interlocked*)
Operationen wurden für AMD64 ebenfalls in calls
übersetzt, und zwar zur "System-Unit" des Compilers
(dort bspw. mit "lock cmpxchg" umgesetzt).
Möglicherweise aus Rücksichtnahme auf Zielsysteme,
bei denen diese Operationen nicht mit Einzel-
instruktionen umzusetzen sind. Weiter tauchen
mit (RTLevent*) einige in OS-calls übersetzte
Aufrufe auf, sowie überwiegend Aufrufe zu weiteren,
nicht gezeigten Methoden des Objekts.
Was die Formatierung betrifft (sofern die bei
Dir richtig angezeigt wurde, im Zitat er scheint
die jedenfalls korrekt): Die hat tatsächlich eine
ungewöhnlich ausgeprägte persönliche Note, folgt
aber einem ausgetüfteltem System, das ist
zweckmässig so.

Davon ging ich aus. Assemblercode schaut - nichtsdestotrotz -
etwas anders aus: http://tinyurl.com/oza4fdz (AT&T-Dialekt).

Noch zweckmässiger wäre es daher doch, das in einer Pascal-NG
zu posten? Hier in d.c.l.a ist zwar nicht gar so viel los wie
in a.l.asm oder c.l.a.x86, das heisst aber nicht, dass irgend
einen Leser in Assembler-NGs HLL-Code wirklich interessiert.

Möglicherweise wärest Du mit "selbstgestrickten" Cachestrate-
gien in alt.os.development besser aufgehoben?

Post by Jan Bruns

Zum Thema gibt es grundlegend
http://de.wikipedia.org/wiki/Cache-Koh%C3%A4renz

Kenne ich. Also nicht so auswendig, daß diese
ganzen Begriffe mit all ihren Implikationen jederzeit
voll präsent wären, aber ich habe z.B. in 'nem FPGA
schon einen (unicore) Cache implementiert.

Schön für Dich! ;)

Post by Jan Bruns

und vertiefend Kapitel 7.3 in AMDs "AMD64 Architecture Programmers
Manual, Volume 2: System Programming" oder "Intel 64 and IA-32
Architectures Software Developer’s Manual", Volume 3a, Kapitel 11.

Welche da wäre? Ich bezweifle, das es nur eine einzige gibt!

Post by Jan Bruns

Äh. User-Land und "Einfluss auf die Cache Kohärenz"
sind doch nun wirklich Begriffe, denen man auch
intuitiv kein Zusammenpassen andeutet.

Was wolltest Du mit dieser Aneinanderreihung vieler komplexer
Worte zu einem noch komplexeren Satzbau eigentlich mitteilen?

Grüsse aus Augsburg

Bernhard Schornak

Jan Bruns

2014-12-05 09:12:59 UTC

Permalink

Möglicherweise wärest Du mit "selbstgestrickten" Cachestrate- gien in
alt.os.development besser aufgehoben?

Sehr witzig.

Welche Plattformunabhängigen, real vorhandenen Betriebssystemcall
schlägst Du denn vor, um bspw. 1 Mio. Objekte mit Threadlocks zu versehen?

Aus diesen Dokumenten geht hervor, daß im Sinne meiner Fragestellung
eine ganz und gar absolute Cache-Kohärenz zu den Idealen der
CPU-Entwickler zählt. Hast Du vielleicht auch noch einen Link auf die
Bug-Report Liste zur Wald-und-Wiesen-CPU?

Welche da wäre? Ich bezweifle, das es nur eine einzige gibt!

Hardware hat genau wie Software immer irgendwelche Bugs.

Dieses Problem hier hat allerdings anscheinend eine andere Ursache,
die bereits dokumentiert ist:

Ich glaube, die Ursache des Problems ist folgende:

CMPXCHG schreibt laut irgendeinem Datenblatt von
AMD oder Intel auf jeden Fall, entweder die
glesenen Daten, oder den Registerwert.

Nun ist da aber auch ein Memory-System, bei
es normal ist, daß bei gleichzeitigen Schreib-
anforderungen von mehreren Seiten nur eine Seite
endgültig geschrieben haben kann.

Wenn dann auf mehreren Kernen gleichzeitig
CMPXCHG ausgeführt wird, und beide auf jeden
Fall schreiben, obwohl nur einer konsistente
Daten liefert, wird sich das Memory-System
regelmässig für die falschen (unveränderten)
Daten entscheiden.

Gruss

Jan Bruns

Bernhard Schornak

2014-12-05 16:43:14 UTC

Permalink

Post by Jan Bruns

Möglicherweise wärest Du mit "selbstgestrickten" Cachestrate- gien in
alt.os.development besser aufgehoben?

Sehr witzig.

Das war (und ist!) durchaus ernst gemeint. Du postest den
Code ja nicht, weil es Dir gerade langweilig ist, sondern
um Dein Wissen mit anderen Menschen zu teilen. In AOD be-
steht immerhin die Möglichkeit, dass sich ein anderer OS-
Entwickler ebenfalls mit Cacheverwaltung beschäftigt, und
seine Erfahrungen gegebenenfalls mit Dir austauscht.

Post by Jan Bruns
Welche Plattformunabhängigen, real vorhandenen Betriebssystemcall
schlägst Du denn vor, um bspw. 1 Mio. Objekte mit Threadlocks zu versehen?

Für Assemblerprogrammierer gibt es ja seit Ewigkeiten den
LOCK-Präfix. Wie es in so genannten "Hochsprachen" gelöst
wird, hängt von der jeweiligen Hochsprache ab. Das könnte
-hier- allerdings nur von Interesse sein, wenn es sich um
eine in Assembler verfasste Funktion / Routine handelte -
Lösungen in Hochsprachen sind nur möglich, wenn diese wie
C eine Möglichkeit bieten, Assemblerbefehle direkt in den
Hochsprachencode einzubinden. Was übrigens den Sinn einer
Hochsprache, nämlich die Unabhängigkeit von der Maschine,
auf der sie gerade läuft, ad absurdum führt...

Post by Jan Bruns

Aus diesen Dokumenten geht hervor, daß im Sinne meiner Fragestellung
eine ganz und gar absolute Cache-Kohärenz zu den Idealen der
CPU-Entwickler zählt. Hast Du vielleicht auch noch einen Link auf die
Bug-Report Liste zur Wald-und-Wiesen-CPU?

Welche da wäre? Ich bezweifle, das es nur eine einzige gibt!

Hardware hat genau wie Software immer irgendwelche Bugs.

Das beantwortet die Frage nicht. Da Du die Existenz einer
"Wald-und-Wiesen-CPU" deklarierst, solltest Du Hersteller
und Typbezeichnung doch jederzeit benennen können.

Es gibt sowohl von AMD als auch von iNTEL dicke PDFs, die
Listen mit allen bekannten Fehlern und "Workarounds" ent-
halten.

Das "Perfekte an und für sich" ist eine Illusion -dummer-
Menschen, die mangels Denkvermögen nicht erfassen können,
dass etwas "perfektes" in einem sich selbst entwickelnden
Universum schon prinzipbedingt nicht existieren kann. Was
auch entwickelt wird - es gibt immer eine Möglickeit, das
aktuelle Modell noch weiter zu verbessern.

Post by Jan Bruns
Dieses Problem hier hat allerdings anscheinend eine andere Ursache,
CMPXCHG schreibt laut irgendeinem Datenblatt von
AMD oder Intel auf jeden Fall, entweder die
glesenen Daten, oder den Registerwert.
Nun ist da aber auch ein Memory-System, bei
es normal ist, daß bei gleichzeitigen Schreib-
anforderungen von mehreren Seiten nur eine Seite
endgültig geschrieben haben kann.
Wenn dann auf mehreren Kernen gleichzeitig
CMPXCHG ausgeführt wird, und beide auf jeden
Fall schreiben, obwohl nur einer konsistente
Daten liefert, wird sich das Memory-System
regelmässig für die falschen (unveränderten)
Daten entscheiden.

Im von Dir vorgegebenen Szenario -können- die Prozessoren
nur unveränderte Daten lesen, da Änderungen erst nach der
vorgenommenen Manipulation an die Speicherhierarchie (vom
L1-Cache bis hin zum Hauptspeicher) weitergegeben werden.
Deshalb wurde ja der LOCK-Befehl eingeführt. Er wirkt auf
den Datenbus des Systems, und sperrt alle Prozessoren bis
auf einen, so lange ein R-M-W-Schreibzugriff erfolgt. Was
auf der Kostenseite (da Gewinn[x] = Verlust[y]) R-M-W-Zu-
griffe für alle Prozessoren verlangsamt.

Wer verwendet schon freiwillig CMPXCHG? In derselben Zeit
können parallel (abhängig von der Zahl der Pipes) mehrere
MOV-CMP-MOV-Operationen ausgeführt werden.

Grüsse aus Augsburg

Bernhard Schornak

Jan Bruns

2014-12-05 20:20:30 UTC

Permalink

Post by Jan Bruns

Möglicherweise wärest Du mit "selbstgestrickten" Cachestrate- gien in
alt.os.development besser aufgehoben?

Sehr witzig.

Das war (und ist!) durchaus ernst gemeint. Du postest den Code ja nicht,
weil es Dir gerade langweilig ist, sondern um Dein Wissen mit anderen
Menschen zu teilen. In AOD be- steht immerhin die Möglichkeit, dass sich
ein anderer OS- Entwickler ebenfalls mit Cacheverwaltung beschäftigt,
und seine Erfahrungen gegebenenfalls mit Dir austauscht.

Was denn für Wissen?
Nö, ich habe den Code wie gesagt abgekippt, um den Kontext der
Fragestellung nach dem Verhalten moderner CPU zu veranschaulichen.

Und "Cacheverwaltung"? Was ist das?

Das Anwendungsbeispiel für den (so ja nicht sinnvoll funktionieren
Code) wäre sowas wie eine Datenbank, deren Datenelemente von mehren
Prozessorkernen gleichzeitig beabreitet werden könnten. Dazu müssen
der Kerne sich irgendwie absprechen, damit sich nicht auf halbfertige
Daten verlassen werden muss.

Für Assemblerprogrammierer gibt es ja seit Ewigkeiten den LOCK-Präfix.
Wie es in so genannten "Hochsprachen" gelöst wird, hängt von der
jeweiligen Hochsprache ab.

Ich habe aber doch schon gesagt, daß es sich eifach um ganz
stinkpiefnormale x86 calls zu stimkoefnormalen x86 Unterfunktionen
handelt:

Zum Beispiel eine Ausgabe vom linux tool "perf":

: Disassembly of section .text:
:
: 0000000000410f88 <FPC_INTERLOCKEDCOMPAREEXCHANGE>:
1,60 : 410f88: push %rbp
9,29 : 410f89: mov %rsp,%rbp
1,28 : 410f8c: sub $0x10,%rsp
3,85 : 410f90: mov %edx,%eax
0,96 : 410f92: lock cmpxchg %esi,(%rdi)
83,01 : 410f96: leaveq

Mit dem Lock-Präfix habe ich bisher noch nie zu tun gehabt, das schien
mir bisher auch hauptsächlich ein Relikt aus der ISA-Bus Ära zu sein, und
bisher wollte ich einfach noch kein #LOCK-Signal.

Dem Anschein nach bewirkt es nicht wirklich zuverlässig das, was andere
Leute sich davon zu erhoffen scheinen (etwa das, was ich von der gerade
gezeigten INTERLOCKEDCOMPAREEXCHANGE erhofft habe, eben eine vollständig
atomische Operation auch in dem Sinne, daß deren Wirkung von allen Kernen
aus gleich aussieht, und der caller zuverlässig entscheiden kann, was
andere Kerne durch diie Operation zu sehen bekommen).

Das könnte -hier- allerdings nur von
Interesse sein, wenn es sich um eine in Assembler verfasste Funktion /
Routine handelte - Lösungen in Hochsprachen sind nur möglich, wenn diese
wie C eine Möglichkeit bieten, Assemblerbefehle direkt in den
Hochsprachencode einzubinden. Was übrigens den Sinn einer Hochsprache,
nämlich die Unabhängigkeit von der Maschine, auf der sie gerade läuft,
ad absurdum führt...

Naja, im Zweifel geht ja auf jeden Fall serialisieren, also
den ganzen Kram mit nur einem Kern erledigen. Genau das wollte ich aber
ja eigentlich vermeiden.

Es gibt sowohl von AMD als auch von iNTEL dicke PDFs, die Listen mit
allen bekannten Fehlern und "Workarounds" ent- halten.

Tatsächlich? Interessant. Wo?

Post by Jan Bruns
CMPXCHG schreibt laut irgendeinem Datenblatt von AMD oder Intel auf
jeden Fall, entweder die glesenen Daten, oder den Registerwert.
Nun ist da aber auch ein Memory-System, bei es normal ist, daß bei
gleichzeitigen Schreib- anforderungen von mehreren Seiten nur eine
Seite endgültig geschrieben haben kann.
Wenn dann auf mehreren Kernen gleichzeitig CMPXCHG ausgeführt wird, und
beide auf jeden Fall schreiben, obwohl nur einer konsistente Daten
liefert, wird sich das Memory-System regelmässig für die falschen
(unveränderten) Daten entscheiden.

Leteres solle aber ja eigentlich, wie Du schriebst, und wie auch viele
andere meinen, durch das Lock-Präfix vermieden werden.

Im von Dir vorgegebenen Szenario -können- die Prozessoren nur
unveränderte Daten lesen, da Änderungen erst nach der vorgenommenen
Manipulation an die Speicherhierarchie (vom L1-Cache bis hin zum
Hauptspeicher) weitergegeben werden. Deshalb wurde ja der LOCK-Befehl
eingeführt. Er wirkt auf den Datenbus des Systems, und sperrt alle
Prozessoren bis auf einen, so lange ein R-M-W-Schreibzugriff erfolgt.
Was auf der Kostenseite (da Gewinn[x] = Verlust[y]) R-M-W-Zu- griffe für
alle Prozessoren verlangsamt.

Bus? Sehe ich nicht. Die Zeiten, in denen das Spass gemacht haben kann,
sich in Datenblättern die Funktion einzelner Pins anzusehen jeweils
aktueller CPUs anusehen, sind ja erstmal vorbei.

Wer verwendet schon freiwillig CMPXCHG? In derselben Zeit können
parallel (abhängig von der Zahl der Pipes) mehrere
MOV-CMP-MOV-Operationen ausgeführt werden.

Klingt jetzt erstmal nach serialisieren. Z.B. könne ich eine ObjektId
(Toid) dazu verwenden, eine critical section, oder sowas auszuwählen,
damit die Kerne sich seltener gegenseitig aufhalten.

Angenehm wäre mir allerdings, wenn sich dieses unerwartete LOCK CMPXCHG
Verhalten (so es nicht an irgendwelchen sonstigen Fehlern lag)
aufklären täte. Ich könnte ja problemlos damit leben, da eben
falsche Erwartungen gehabt zu haben, nur wo, das wäre dann schon
interessant. Hat mich immerhin schon einige Stunden gekostet, mir
dieses compare-and-swap basierte System auszudenken.

Gruss

Jan Bruns

Bernhard Schornak

2014-12-06 11:13:45 UTC

Permalink

Post by Jan Bruns

Möglicherweise wärest Du mit "selbstgestrickten" Cachestrate- gien in
alt.os.development besser aufgehoben?

Sehr witzig.

Das war (und ist!) durchaus ernst gemeint. Du postest den Code ja nicht,
weil es Dir gerade langweilig ist, sondern um Dein Wissen mit anderen
Menschen zu teilen. In AOD be- steht immerhin die Möglichkeit, dass sich
ein anderer OS- Entwickler ebenfalls mit Cacheverwaltung beschäftigt,
und seine Erfahrungen gegebenenfalls mit Dir austauscht.

Was denn für Wissen?

Das, das Du Dir bei der Entwicklung des geposteten Texts ange-
eignet hast?

Post by Jan Bruns
Nö, ich habe den Code wie gesagt abgekippt, um den Kontext der
Fragestellung nach dem Verhalten moderner CPU zu veranschaulichen.

Dazu musstest Du Dich aber -irgendwann einmal- mit dem Problem
auseinandersetzen?

Post by Jan Bruns
Und "Cacheverwaltung"? Was ist das?

Alles, was mit der Verwaltung der Caches zu tun hat - z.B. das
MESI/MOESI-Protokoll, die Befehle CLFLUSH, INVD, WBINDV, Hints
wie MOVNTDQ, und so weiter...

Post by Jan Bruns
Das Anwendungsbeispiel für den (so ja nicht sinnvoll funktionieren
Code) wäre sowas wie eine Datenbank, deren Datenelemente von mehren
Prozessorkernen gleichzeitig beabreitet werden könnten. Dazu müssen
der Kerne sich irgendwie absprechen, damit sich nicht auf halbfertige
Daten verlassen werden muss.

Das kann ich leider nicht nachvollziehen, da Dein merkwürdiger
Text keine einzige Zeile Assemblercode enthält. Wie gesagt: Du
schreibst in einer NG, die sich an Assemblerprogrammierer (und
nicht an Hochsprachenfreaks...) richtet.

Post by Jan Bruns

Für Assemblerprogrammierer gibt es ja seit Ewigkeiten den LOCK-Präfix.
Wie es in so genannten "Hochsprachen" gelöst wird, hängt von der
jeweiligen Hochsprache ab.

Ich habe aber doch schon gesagt, daß es sich eifach um ganz
stinkpiefnormale x86 calls zu stimkoefnormalen x86 Unterfunktionen
1,60 : 410f88: push %rbp
9,29 : 410f89: mov %rsp,%rbp
1,28 : 410f8c: sub $0x10,%rsp
3,85 : 410f90: mov %edx,%eax
0,96 : 410f92: lock cmpxchg %esi,(%rdi)
83,01 : 410f96: leaveq

Was sich auf

mov %edx, %eax
lock cmpxchg %esi, (%rdi)
ret

reduzieren liesse. Der Rest ist redundant, da die einzige hier
ausgeführte Sequenz keinen Stapelrahmen (stackframe) benötigt.
Die verwendeten Register sind laut "64 Bit Calling Convention"
der Linux-API als "volatile" definiert, sie müssen somit nicht
gesichert und wieder hergestellt werden. Bei Windows-64 müsste
man RDI und RSI sichern. Es geht auch ganz ohne Stapelrahmen:

http://tinyurl.com/oxwepcr

Post by Jan Bruns
Mit dem Lock-Präfix habe ich bisher noch nie zu tun gehabt, das schien
mir bisher auch hauptsächlich ein Relikt aus der ISA-Bus Ära zu sein, und
bisher wollte ich einfach noch kein #LOCK-Signal.

http://www.i8086.de/asm/8086-88-asm-lock.html

Post by Jan Bruns
Dem Anschein nach bewirkt es nicht wirklich zuverlässig das, was andere
Leute sich davon zu erhoffen scheinen (etwa das, was ich von der gerade
gezeigten INTERLOCKEDCOMPAREEXCHANGE erhofft habe, eben eine vollständig
atomische Operation auch in dem Sinne, daß deren Wirkung von allen Kernen
aus gleich aussieht, und der caller zuverlässig entscheiden kann, was
andere Kerne durch diie Operation zu sehen bekommen).

Genaue Informationen könntest Du über das verwendete Protokoll,
MESI bei iNTEL / MOESI bei AMD, erfahren. Diese Protokolle sind
für die Kommunikation zwischen den Kernen verantwortlich.

Post by Jan Bruns

Naja, im Zweifel geht ja auf jeden Fall serialisieren, also
den ganzen Kram mit nur einem Kern erledigen. Genau das wollte ich aber
ja eigentlich vermeiden.

Mit LOCK CMPXCHG(x) dauert es wesentlich länger, die selbe Auf-
gabe abzuarbeiten, da alle am Bus hängenden Prozessoren auf die
Abarbeitung aller signalisierten LOCKs warten müssen.

Post by Jan Bruns

Es gibt sowohl von AMD als auch von iNTEL dicke PDFs, die Listen mit
allen bekannten Fehlern und "Workarounds" ent- halten.

Tatsächlich? Interessant. Wo?

Revision Guide for AMD Family 10h Processors PDF: 41322
Revision Guide for AMD Family 15h Models 00h-0Fh
Processors PDF: 48063

Bei iNTEL hab ich noch keine vergleichbaren Dokumente gefunden.

Post by Jan Bruns

Leteres solle aber ja eigentlich, wie Du schriebst, und wie auch viele
andere meinen, durch das Lock-Präfix vermieden werden.

LOCK sperrt die Kommunikation für alle am Bus hängenden Geräte,
bis der die Sperrung auslösende Befehl abgearbeitet wurde.

Post by Jan Bruns

Im von Dir vorgegebenen Szenario -können- die Prozessoren nur
unveränderte Daten lesen, da Änderungen erst nach der vorgenommenen
Manipulation an die Speicherhierarchie (vom L1-Cache bis hin zum
Hauptspeicher) weitergegeben werden. Deshalb wurde ja der LOCK-Befehl
eingeführt. Er wirkt auf den Datenbus des Systems, und sperrt alle
Prozessoren bis auf einen, so lange ein R-M-W-Schreibzugriff erfolgt.
Was auf der Kostenseite (da Gewinn[x] = Verlust[y]) R-M-W-Zu- griffe für
alle Prozessoren verlangsamt.

Bus? Sehe ich nicht. Die Zeiten, in denen das Spass gemacht haben kann,
sich in Datenblättern die Funktion einzelner Pins anzusehen jeweils
aktueller CPUs anusehen, sind ja erstmal vorbei.

Einen Prozessor mit Null Pins und ohne interne Verdrahtung gibt
es (noch) nicht...

Gemeint ist hier auch eher der interne Bus, an dem alle "Kerne"
eines Prozessors hängen. Über diesen werden alle Kerne an ihren
Anteil des L2- und L3-Cache und den Hauptspeicher angeschlossen
und kommunizieren miteinander.

Post by Jan Bruns

Wer verwendet schon freiwillig CMPXCHG? In derselben Zeit können
parallel (abhängig von der Zahl der Pipes) mehrere
MOV-CMP-MOV-Operationen ausgeführt werden.

Klingt jetzt erstmal nach serialisieren. Z.B. könne ich eine ObjektId
(Toid) dazu verwenden, eine critical section, oder sowas auszuwählen,
damit die Kerne sich seltener gegenseitig aufhalten.

Das macht das Protokoll automatisch - der Programmierer hat auf
die Kommunikation der Kerne untereinander wenig Einfluss.

Post by Jan Bruns
Angenehm wäre mir allerdings, wenn sich dieses unerwartete LOCK CMPXCHG
Verhalten (so es nicht an irgendwelchen sonstigen Fehlern lag)
aufklären täte. Ich könnte ja problemlos damit leben, da eben
falsche Erwartungen gehabt zu haben, nur wo, das wäre dann schon
interessant. Hat mich immerhin schon einige Stunden gekostet, mir
dieses compare-and-swap basierte System auszudenken.

http://wiki.osdev.org/Spinlock

Grüsse aus Augsburg

Bernhard Schornak

Jan Bruns

2014-12-08 07:29:19 UTC

Permalink

Post by Bernhard Schornak
Was sich auf
mov %edx, %eax
lock cmpxchg %esi, (%rdi)
ret
reduzieren liesse. Der Rest ist redundant, da die einzige hier
ausgeführte Sequenz keinen Stapelrahmen (stackframe) benötigt. Die
verwendeten Register sind laut "64 Bit Calling Convention" der Linux-API
als "volatile" definiert, sie müssen somit nicht gesichert und wieder
hergestellt werden. Bei Windows-64 müsste man RDI und RSI sichern. Es

Ich kann Dir grad gar nicht genau sagen, was für eine calling
convention die Funktion verwendet. Es handelt sich ja wie gesagt
um eine quasi Compiler-eigene Funktion aus der "System-Unit", deren
Quelltext auch aus so vielen Dateien zusammengewürfelt ist, daß man
deren Aufbau nur sehr Mühsam nachvollziehen kann. Jedenfalls hat der
Compiler die Funktion ganz offenbar nicht direkt geinlined (also ganz
ohne call/ret), was er von mir aus auch gerne hätte machen können.

Scheint aber ja "zufällig" nach einem SystemV64-ABI kompatiblen
Aufrauf auszusehen.

Stimmt zwar, daß das unnötige Stackframe irgendwie ranzig aussieht,
aber vielleicht hat das ja Gründe. Denkbar wäre z.B., daß das wegen
irgendwelcher Stack-Unwinding Geschichten angelegt wird. Wenn z.B.
der das cmpxchg zu einer Speicherzugriffsverletzung führt, erhalte
ich ja nicht nur einfach eine Exception, sondern auch noch daren
letzte Gegenmassnahme, die sich in diesem Fall so ausgestaltet,
daß mir ein ungewindeter Call-Trace angezeigt wird, vielleicht
sogar mit den Namen der Quelltextdateien und Zeilennummern.

Gruss

Jan Bruns

Bernhard Schornak

2014-12-08 15:55:59 UTC

Permalink

Post by Jan Bruns

Ich kann Dir grad gar nicht genau sagen, was für eine calling
convention die Funktion verwendet.

Da RDI und RSI nicht gesichert werden, kann es sich nur um Linux
handeln.

http://agner.org/optimize/calling_conventions.pdf

Post by Jan Bruns
Es handelt sich ja wie gesagt
um eine quasi Compiler-eigene Funktion aus der "System-Unit", deren
Quelltext auch aus so vielen Dateien zusammengewürfelt ist, daß man
deren Aufbau nur sehr Mühsam nachvollziehen kann. Jedenfalls hat der
Compiler die Funktion ganz offenbar nicht direkt geinlined (also ganz
ohne call/ret), was er von mir aus auch gerne hätte machen können.
Scheint aber ja "zufällig" nach einem SystemV64-ABI kompatiblen
Aufrauf auszusehen.
Stimmt zwar, daß das unnötige Stackframe irgendwie ranzig aussieht,
aber vielleicht hat das ja Gründe. Denkbar wäre z.B., daß das wegen
irgendwelcher Stack-Unwinding Geschichten angelegt wird. Wenn z.B.
der das cmpxchg zu einer Speicherzugriffsverletzung führt, erhalte
ich ja nicht nur einfach eine Exception, sondern auch noch daren
letzte Gegenmassnahme, die sich in diesem Fall so ausgestaltet,
daß mir ein ungewindeter Call-Trace angezeigt wird, vielleicht
sogar mit den Namen der Quelltextdateien und Zeilennummern.

Der einzige Grund, redundanten Code zu generieren, ist der, dass
diejenigen, die derartige Konstrukte produzieren, keinen blassen
Schimmer von Assemblerprogrammierung haben. Bei Exceptions würde
die Inhalte aller Register vor der Abarbeitung gesichert und zu-
dem in Logfiles gespeichert, um dem Anwendungsprogrammierern die
Fehlersuche zu ermöglichen - sicher kein Argument für den Aufbau
überflüssiger Stapelrahmen...

Grüsse aus Augsburg

Bernhard Schornak

Jan Bruns

2014-12-09 03:18:14 UTC