Autor: Artur Gawryszczak (gawrysz_at_camk.edu.pl._!_!_!_)
Data: Fri 07 Mar 2003 - 09:35:30 MET
Marcin Wojtczuk wrote:
> Jak przez mgłę pamiętam że kiedyś, w czasach pentium I taka opinia
> panowała.
To się udawało dość łatwo pokazać "realistycznymi" benchmarkami i
wychodziło IIRC ~5% różnicy między 83×2 a 66×2.5
> Hmm.. ale czy L2 nie jest taktowane pełną częstotliwością procesora ? A
> problem L2<->pamięć to nie jest czasem właśnie problem asynchroniczności
Załadowanie określonej porcji danych do L2 (lub L3) zajmuje ileśtam cykli
FSB, a procesor nudzi się tymczasem podczas n-krotnie większej ilości
cykli, gdzie n to mnożnik. Jeżeli dane są typu strumieniowego, to w
dobrze zoptymalizowanych programach, zanim się dane w cache skończą, są
posyłane instrukcje prefetch. Dlatego nie wiem, czy na mnożeniu
wektorów/macierzy/krakowianów dałoby się pokazać ten efekt (nie mam do
zabawy procka z odblokowanym mnożnikiem), chyba żeby zrobić złośliwy
algorytm, który by zamiast brać elementy po kolei brał je w jakiejś
losowej kolejności.
-- Pozdrówka, Artur
To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 09:36:51 MET DST