ГЛАВА 4. ЛОГИЧЕСКА СТРУКТУРА НА ЗАПОМНЯЩИ УСТРОЙСТВА

Последната актуализация на този раздел е от 2019 година.

4.2.2. Полупроводникови динамични памети. Продължение.

DRAM, SDRAM, SDR, DDR, DDR2, DDR3, DDR4, DDR5

Технология Xn-Prefetch. Използване на парафазен (диференциален) тактов сигнал. Умножаване на честотата. Особености в структурата на входно-изходния буфер на SDRAM

Уважаеми читатели, включваме този раздел в цялостното съдържание на тази глава, тъй като представеното в него има съществено значение за задълбоченото изучаване на логическата структура на динамичните памети, както и на тяхното функциониране. Неговото място е точно тук, тъй като изложението навлиза в представянето на новите и на бъдещите SDRAM, за които този въпрос е много важен. Причините той да бъде разгледан и вмъкнат тук, се коренят най-вече в отсъствието в публичното пространство на необходимите пояснения относно проблемите, свързани с реализацията на темата, обявена в горното заглавие.

Същността на темата касае входно-изходния буфер на съвременните динамични памети. По-долу ще бъдат представени решения, необходими за нейното по-пълно изясняване. Най-напред ще се спрем на изказването “превключване по двата фронта – преден и заден" на тактовата последователност. Това натрапчиво изказване в много публикации е свързано с пояснения, относно методите за повишаване на пропускателната способност на динамичната памет и цели да поясни функционирането на входно-изходния буфер. Ние също го употребихме когато представяхме паметите от тип DDR. Литературните обяснения за двойния трансфер в рамките на един такт, както и изказването "превключване по два фронта", не са съвсем коректни, което и налага нашите обяснения. Стремежът към по-висока производителност е довел дизайнерите до идеята да предават 2 пъти повече порции данни през данновата шина в рамките на един период на тактовата последователност или кратко: “в един такт". За да обяснят как на практика става това, пак същите дизайнери въведоха споменатото вече изказване. Тук е добре читателят да си спомни фигура 4.2.2.15. Двойният трансфер в рамките на един такт е наречен "2n-Prefetch". Същността на този механизъм обаче на практика не е добре изяснен, ето защо това ще бъде нашата задача тук.

Нека разполагаме с тактов сигнал CLK с определена честота f, който има коефициент на запълване (КЗ) 50%. Последното означава, че в един период на тактовата последователност двете логически нива на сигнала (0 и 1) имат една и съща продължителност. При това условие всеки полутакт дефинира едно и също време, за да бъдат извършени идентични действия, свързани с последователния трансфер на двете порции данни, т.е. това условие е гаранция, че предаването на нито една от тях няма да бъде ощетено във времето. И нека заедно със сигнала CLK разгледаме сигнала на неговата инверсия not(CLK).

Фиг. 4.2.2.21. Парафазна тактова последователност (2 предни/задни фронта в период)

Горната времедиаграма изразява графично казаното по-горе. Контролерът на паметта има за задача, използвайки двете фази на тактовата последователност CLK, да формира управляващите строб-импулси DQS и not(DQS) (Data Queue Strobe) така, щото управлението да разполага с два положителни фронта на едно и също разстояние един от друг в рамките на един такт. Обърнете внимание на факта, че тези фронтове не са последователни в рамките на един и същи сигнал, а са фронтове на два различни сигнала. Последното е от изключително значение, тъй като позволява тези два фронта да се подават по две различни линии, които достигат две различни входно-изходни шини, като ги мултиплексират (фигура 4.2.2.16). Освен мултиплексирането на данновите шини, тези два фронта управляват фиксирането на данни в два различни регистъра, с обща входна даннова шина. Данните пристигат по общата даннова шина последователно във времето, т.е. в различни моменти (вижте фигура 4.2.2.17). Това може да се види в логическата структура на DDR-паметта от фигура 4.2.2.19. Външният ефект от описаната организация е като за предаване на данни с двойно по-висока честота.

Въпреки че става дума за трансфер с удвоена честота, в казаното до момента не съществува проблемът с умножение на честоти. Що се отнася до формирането на споменатия по-горе единичен DQS импулс и как той може да бъде постигнат с логически средства, читателят може да намери подробни пояснения в раздел 8.1 на книга [3] или в раздел 5.1.6 на книга [5].

Както ще видим по-нататък в този раздел, технологията хn-Prefetch се развива и се прилага във всички следващи поколения динамични памети, като 4n-Prefetch, или като 8n-Prefetch, или дори като 16n-Prefetch (при най-новите DDR5). Последните наименования означават, че в рамките на един период от тактовата честота на ядрото на паметта, върху изходната шина се изпълнява последователен трансфер на 4 или на 8 порции данни. Тези варианти на технологията хn-Prefetch обаче вече се прилагат в комбинация с технологията на умножените тактови честоти. Става дума за различно тактуване между ядрото на паметта и част от структурата на входно-изходния буфер. Например, ядрото на DDR2 се тактува с честота f, а буферът – с честота 2.f, което е пояснено на фигура 4.2.2.30 по-долу, или с честота 4.f, което е пояснено на фигура 4.2.2.36 по-нататък.

Ще обърнем внимание на още нещо, което отличава споменатите две технологии. Става дума за разбирането на това как съществуват формираните импулси топологично и във времето. Ще направим пояснението графично.

Фиг. 4.2.2.22. Илюстрация на смисъла на технологиите

На лявата рисунка по-горе се виждат 4 импулса в рамките на един период, но разпространяващи се по 4 различни линии, което съответства на технологията Prefetch. Тук, както родителският сигнал, така и четирите производни сигнала, са с една и съща честота. Изобразеното на дясната рисунка е съвсем различно – вижда се тактова последователност с честота 4.f, разпространяваща се по една единствена линия.

Ще поясним възможността за реализация на технологията Prefetch. Използвайки конюнкцията от сигнала In и неговата задържана във времето инверсия, в показаната по-долу логическа схема, получаваме сигнал Out, с всички желани от тази обработка ефекти.

Фиг. 4.2.2.23. Детектор на преден фронт (пулс генератор)

Ясно е, че чрез параметъра N (брой на последователно включените логически инвертори) може да се регулира ширината на единичния импулс T_out на изхода на логическата схема.

За да реализираме показания на фигура 4.2.2.22 ефект 4n-Prefetch, следва да имаме, освен основната тактова последователност CLK, още три нейни дефазирани (задържани) копия относно родителската последователност, съответно на ¼Т, на ½Т и на ¾Т. Така, прилагайки 4 схеми от вида, показан на фигура 4.2.2.23, ще имаме желаната последователност 4n-Prefetch.

Технологията с умножението на честота е свързана със значително по-специален проблем. Приложението на умножените честоти в контекста на динамичните памети е такова, че върху него ние налагаме допълнително изискването за 50% коефициент на запълване за всички честоти. Ще поясним как това може да се направи на практика.

Нека имаме правоъгълен сигнал S с честота f и коефициент на запълване КЗ=50%, както и негово закъсняло (задържано във времето) копие S1. Съвместното положение на тези два сигнала е показано на следната рисунка.

Фиг. 4.2.2.24. Тактова последователност S с КЗ=50% и нейното задържано копие S1

Закъснението d на сигнала S1 може да бъде причинено умишлено, при това достатъчно лесно с подходящи логически схеми. Ако двата сигнала са аргументи на логическата функция неравнозначност (mod2, XOR), то резултатът би бил следният:

Фиг. 4.2.2.25. Тактова последователност с честота 2.f

Както лесно може да се види, честотата на получения сигнал S2 е 2 пъти по-висока (f_S2=2.f). Коефициентът му на запълване обаче не е 50%. За да бъде постигнато това допълнително условие е необходимо закъснението d на сигнал S1 спрямо сигнал S, да бъде 25% от периода му (¼T).

Една от възможностите за такова контролирано закъснение се състои в използването на така наречените симетрични фронт-детектори, чиято реализация е показан по-долу.

Фиг. 4.2.2.26. Delay-верига като схема за умножаване на честотата на правоъгълен сигнал

Както се вижда от логическата схема, чрез параметъра K (брой на последователно включените логически инвертори) може да се регулира закъснението, или с други думи, продължителността T_out на единичните импулси.

Описаната идея може да се приложи повторно върху допълнителното закъснение на сигнал S1, което ще означим S3 и съответно неговото закъснение S4, което се постига с аналогични средства. Използвайки същата логическа функция ще получим сигнал S5. Логическата сума от сигнал S2 и сигнал S5 дава сигнал S6.

Фиг. 4.2.2.27. Тактова последователност с честота 4.f

Казаното до тук осветлява основната идея за получаване на тактови последователности с по-високи честоти. Единственото затруднение и условие, което тази реализация среща, е равномерното дефазиране на основния сигнал (например на ¼Т, на ½Т, на ¾Т и пр.). Този проблем се решава с различни средства – логически и електронни, като се достига до цялостни схемни решения в лицето на логически схеми, които са наречени DLL (Delay-Locked Loop). Тези схеми са включени в структурата на динамичната памет като имат и допълнителни функции, свързани с управлението на различните режими за трансфер на данни (вижте по-долу фигура 4.2.2.37 и фигура 4.2.2.40), които бяха пояснени в предходния раздел.

В научните публикации и в патентите читателят може да срещне и други технически решения, но тяхното подробно разглеждане тук излиза извън нашите интереси.

Ще завършим с това, че технологията хn-Prefetch е свързана с мултиплексирането на данновите шини, а технологията за умножаване на честотата с управлението на FIFO-буферите. Последните представляват своеобразни конвейери за трансфер на блокове от данни. Логическата структура на входно-изходните буфери на динамичните памети са достатъчно сложни (вижте примерите от фигура 4.2.2.37 и фигура 4.2.2.40). Те съдържат тези логически възли, тъй като освен високата пропускателна способност, трябва да осигуряват и множеството различни режими за работа, за които вече беше писано.

Памет от тип DDR2

Ако се следва използваната вече терминология - SDR, DDR, то паметта от тип DDR2 би било логично да бъде наречена QDR (Quadra Data Rate), тъй като при този стандарт е предвидена 4 пъти по-висока скорост за предаване на данни спрямо базовата SDR. С други думи, в стандарт DDR2, в пакетен режим, се предават данни 4 пъти в един такт. За да се организира този начин на работа на паметта е необходимо входно-изходният буфер да работи на 4 пъти по-висока тактова честота, в сравнение с честотата, на която работи ядрото на паметта. Това се постига по следния начин, ядрото продължава да се синхронизира с основната тактова последователност, но входно-изходния буфер се тактува с честота, която е 4 пъти по-висока. По предния фронт на всеки един от тези 4 импулса по 4 независими линии на буфера се предават 4 отделни порции данни с формат n бита. Това се нарича технология 4n-Prefetch. Самият буфер се тактува с удвоената основна честота на ядрото, а за синхронизация на предаването на даннтите се използват и двата фронта на тази честота, по начина показан на фигура 4.2.2.15. С други думи, ядрото може да предава към изходната даннова шина 4 порции, с което пропускаталната възможност се повишава 4 пъти. Следващите фигури илюстрират съответните логически структури.

Фиг. 4.2.2.28. Технология 4n-Prefetch при операция четене

Фиг. 4.2.2.29. Технология 4n-Prefetch при операция запис

Данновият масив в паметта от тип DDR2 е разделен на 4 логически банки, което позволява да се реализират модули с обем от 1 и 2[GiB], организирани в 8 логически банки. Извършват трансфер по двата фронта на тактовия сигнал, който обаче е вътрешно с удвоена честота. Трансферът се извършва върху 64 битова даннова шина (отнася се до типичния РС-вариант). Това осигурява четворно по-голяма честота на трансфера по сравнение със честотата тактуване. Тези положения са пояснени графично със следващата фигура.

Фиг. 4.2.2.30. Принцип на удвояване на честотата при памети тип DDR2

В сравнение с паметта от тип DDR, паметта DDR2 осигурява същата пропускателна способност, но при 2 пъти по-ниска тактова честота на ядрото. Например, ядрото на паметта от тип DDR работи на честота 200[MHz], а ядрото на памет DDR2-400 работи на честота 100[MHz]. Така памет DDR2 има значително по-големи потенциални възможности за повишаване на пропускателната способност.

Двойният трансфер в рамките на един такт беше наречен "2n-Prefetch". От това следва, че вътрешната даннова шина (шината на ядрото на паметта) е с двойна ширина спрямо външната шина. Това изисква предаването на данните да става чрез вътрешно мултиплексиране. Мултиплексирането се извършва по предния фронт на парафазната тактова двойка (CLK, not(CLK)). Архитектурата на DDR2 паметите е основана на същия принцип, но при нея вътрешната даннова шина е 4 пъти по-широка спрямо външната. Това означава, че броят на банките в запомнящия масив, от 4 е станал 8. За предаване на 8 бита са необходими 4 такта, във всеки от който се предават по 2 бита. Така за предаването на прочетените в рамките на един такт данни се налага мултиплексиране 4 към 1, което се нарича "4n-Prefetch" правило. За да се постигне всичко това се налага вътрешното удвояване на честотата на тактовата последователност, след което за управление на мултиплексирането отново се използва парафазната двойка (CLK, not(CLK)).

На фигура 4.2.2.31 е представена времедиаграмата на операция четене от памет тип DDR2. В този пример се предполага наличие на 2 банки (Bank0, Bank1), дължина на пакета BL=4 и тайминги t_CAS=2, t_RCD=3, t_RRD=2. В началото, с микрокоманда АСТ, се активират и двете банки, за да се получи достъп до съответния ред. След това, на всеки 2 такта се подава микрокоманда за четене READ от стълб на активната банка. Данните от активната банка излизат със закъснение от 4 такта.

Фиг. 4.2.2.31. Обобщена времедиаграма за работа на памет DDR2

Тъй като закъснението CAS Delay е 2 такта, то 2 такта след микрокоманда READ, данните излизат на изходната даннова шина. Напомняме, че за представения пример банките са 4, така че по четирите шини паралелно към входно-изходния буфер се предават 4 порции данни от банка А, а след това и от останалите банки – B, C, и D.

По-нататък 4-те порции данни се извеждат последователно една по една през изходния мултиплексор, според същността на технологията 4n-Prefetch, на изходната даннова шина. Така в рамките на един такт от честотата на ядрото, на изхода се предават, макар и последователно, 4 n-битови порции данни. По този начин следва, че минималната дължина на пакета за DDR2 памети не може да е по-малка от 4, т.е. BL≥4.

По-долу са представени още времедиаграми, илюстриращи основните операции в памети DDR2.

Фиг. 4.2.2.32. Времедиаграма на операция единично четене

Фиг. 4.2.2.33. Времедиаграма на операция последователно четене

Както се вижда от фигурата, при последователно четене следващата команда се подава преди да са предадени данните на предидущата. Това по същество е конвейеризацията на трансфера. При това закъснението CL не влияе на трансфера. Ако предварителното извличане на данни от паметта е организирано добре от устройството за управление на паметта, то влиянието на това закъснение върху производителността ще бъде незначително.

Времедиаграмите при операция запис имат вида, представена на следващите фигури. Обърнете внимание на центрирането на предния фронт на тактовите импулси.

Фиг. 4.2.2.34. Времедиаграма на операция единичен запис

Фиг. 4.2.2.35. Времедиаграма на операция последователен запис

Модулите с памети тип DDR2 ще се произвеждат в нови 240-контактни DIMM платки. В следващата таблица са представени спецификациите на утвърдените към настоящия момент 3 JEDEC (Joint Electronic Device Engineering Council) стандарта DDR2 модули, които ще се произвеждат с обем 256[MB], 512[MB] и 1[GB].

Таблица 4.2.2.2 Производителност и означения

Честота на шината [MHz]	Скорост на предаване [MT/s]^*	Означение на компонента	Означение на модула	Пропускна способност на модула [GB/s]	Производителност в двуканален режим [GB/s]
200	400	DDR2-400	PC2-3200	3,2	6,4
266	533	DDR2-533	PC2-4300	4,3	8,6
333	667	DDR2-667	PC2-5300	5,3	10,6
400	800	DDR2-800	PC2-6400	6,4	12,8
500	1000	DDR2-1000	PC2-8000	8,0	16
533	1066	DDR2-1066	PC2-8500	8,5	17

[MT/s] - означава брой мегатрансфери за секунда.

Интегралните схеми за DDR2 паметите ще се произвеждат с корпуси тип FBGA (Fine Ball Grid Array), със захранване на 1,8 [v].

В технологията на паметта от тип DDR2 съществуват още особености със синхронизацията, които ние ще пропуснем тук.

Памет от тип DDR3

Стандарт DDR3 се разглежда като логическо развитие на стандарта DDR2. Серийното производство на памети от тип DDR3 започва след 2005 година. Ефективните работни честоти са от 800 до 1600[MHz]. Захранващото напрежение е понижено до 1,5[v]. Производствената технология е 90[nm]. Значително е намален енергийният разход, което е постигнато чрез използване на транзистори с двоен затвор (Dual-gate), благодарение на които е намален токът на разсейването. Обемът на тези памети е от 1 до 4[GiB]. Логическата структура е организирана в 8 банки, размерът на страницата е 1024 за чипове с ширина на шината 4 и 8, а за чипове със ширина на шината 16, обемът на страницата е 2048. Най-съществената разлика на DDR3 от DDR2, е новата технология 8n-Prefetch.

Така основният принцип за организация на ядрото на паметта е бъде запазен. В този смисъл DDR3 паметта е все още онази DDR SDRAM, в която предаването на данните се осъществява по двата фронта на тактовия сигнал. В структурно отношение организацията може да се илюстрира така.

Фиг. 4.2.2.36. Принцип на удвояване при памети тип DDR3

Предимствата на паметите DDR3 са същите като при DDR2: от една страна се снижава енергийният разход в условия на равна пропускателност; от друга страна това е възможността за по-нататъшно увеличаване на тактовата честота до DDR3-1600. Същите са и недостатъците – силното различие между вътрешната и външната честота води до още по-големи стойности на задръжките. В подкрепа на казаното представяме на следващата фигура логическата структура на DDR3 SDRAM на фирмата Micron, с обем 1[G]=2³⁰x1. Всяка банка от запомнящия масив е с размери (16384х128х64), т.е. 64-битовите клетки са подредени по 128 в един ред, последователно в 16384 реда.

Фиг. 4.2.2.37. Общ вид на логическата структура на 1[G]x1 DDR3 SDRAM (Micron)

В този тип памет ядрото се синхронизира по предния фронт на основната тактова последователност, а с появяването на всеки импулс към входно-изходния буфер (вижте фигура 4.2.2.38), по 8 паралелни линии, се предават 8 n-битови порции прочетени данни. Това предаване става с учетворена тактова честота спрямо тази на ядрото. Самият буфер предава на външната даннова шина данни и по предния и по задния фронт, така че еквивалентната честота се покачва още 2 пъти. Така, при реализация на технологията 8n-Prefetch, дължината на пакета е 8, т.е. BL=8. На следващата времедиаграма в най-общ вид е илюстрирана работата на памет DDR3, при следните тайминги: t_RRD=2, t_RCD=3 и t_CL=2.

Фиг. 4.2.2.38. Обобщена времедиаграма за работа на памет DDR3

Реализацията на технологията 8n-Prefetch не е единственото отличие на паметите DDR3 от по-старата технология, но тук ние не можем да си позволим по-нататъшно разширение на темата.

Памет от тип DDR4

Първоначално публикуван през септември 2012 г. и последно актуализиран през юни 2017 г., стандартът JEDEC DDR4 е определен за осигуряване на по-висока производителност, с подобрена надеждност и намалена мощност, като по този начин представлява значително постижение по отношение на предишните технологии за памет на DRAM.

DDR4 (JESD79-4B) е достъпен за изтегляне от уебсайта на JEDEC. DDR4 предлага широка гама от иновативни функции, предназначени да осигурят висока скорост на работа и широка приложимост в различни приложения, включително сървъри, лаптопи, настолни компютри и потребителски продукти. Освен това, новата технология е дефинирана с цел опростяване на миграцията и позволяване на възприемането на общонационален стандарт. Дефинициите са следните:

DDR4-1600 (PC4-12800) ;

DDR4-1866 (PC4-14900) ;

DDR4-2133 (PC4-17000) ;

DDR4-2400 (PC4-19200) ;

DDR4-2666 (PC4-21333) ;

DDR4-2933 (PC4-23466) ;

DDR4-3200 (PC4-25600) .

Този вид памет е своеобразен аналог на паметта DDR3 дотолкова, доколкото тя също използва технологията 8n-Prefetch. Произвежда се с използване на 32 нанометрова технология.

Може би тук е момента, в който следва да обърнем внимание на този параметър. Обикновено потребителят очаква степента на дискретизация да расте, а в паметите това да се изрази в увеличаване на обема. Нека да се спрем на следните данни, представени в следващата таблица.

Таблица 4.2.2.3. Производствени технологии в нанометри по години

	2014	2015	2016	2017	2018	2019	2020	2021	2022
Логически схеми	20	16	14	10	7	7	5	5	3
памети DRAM	28 - 40	32	30	22 - 20

Забележка: зоните в червено са прогнозни ███ .

У читателя вероятно възниква въпросът: защо степента на дискретизация у паметите не е така значителна, както в останалите схеми? Отговорът е елементарен – заради кондензаторът, който изгражда запомнящите елементи.

Обемът на чиповете е в границите от 2[Gib] до 16[Gib]. Скоростта на предаване на данни за DDR4 се определя в границите на 1,6[GiB/s] до 3,2[GiB/s]. Структурата на ядрото е с 2 или 4 избираеми банкови групи. Ширината на вътрешните даннови линии може да бъде 4, 8 или 16 бита. Този дизайн позволява на устройствата с памет DDR4 да имат отделни микрооперации по активиране, четене, запис или опресняване във всяка уникална банкова група. Тази концепция също така подобрява общата ефективност на паметта и честотната лента. За паметта са дефинирани множество допълнителни функции, които няма да разглеждаме тук.

Като пример DDR4 на Micron поддържа банково групиране: x4/x8. Ядрото съдържа четири банкови групи (BG[3:0]) и всяка банкова група се състои от четири подбанки (BA[3:0]). Паметите DDR4 x16 имат две банкови групи (BG[1:0]), а всяка банкова група съдържа четири подбанки. Ядрото може да бъде структурирано така: 1Gx1, 512Mx4, 256Mx8. И още 8[Gib] DDR4-чип е с 4-битова даннова шина. Ядрото съдържа 4 отделни групи от банки, като всяка група съдържа 4 банки. Всяка банка има размери 131072=2¹⁷ х 512 х 8. Малката дължина на редовете (512) подпомага по-бързото “претърсване" на банката. Общият вид на логическата структура илюстрират следващите фигури.

Фиг. 4.2.2.39. 4[G]x1: x4/x8/x16 DDR4 SDRAM на Mikron.

Обща структура на групите от банки и банките

Фиг. 4.2.2.40. Общ вид на логическата структура на 1[G]x1 DDR4 SDRAM (Micron)

Добре е читателят да обърне внимание на факта, че отделните банки имат силно изразена пространствена форма – техните клетки са разположени матрично, но имат 4 байтова дължина.

Функцията на банковите групи, използвана в DDR4 SDRAM, е заимствана от графичните памети на GDDR5. За да се разбере необходимостта от банкови групи, трябва да се разбере концепцията за DDR SDRAM prefetch. Prefetch е термин, описващ колко порции от данните се извличат на всеки такт, когато командата достъпне колона в DDR памет. По-горе беше посочено, че паметите DDR4 използват мултиплексиране 8n-Prefetch, което означава, че на изходната шина в рамките на един период на основната тактова последователност се предават 8 порции данни (вижте фигура 4.2.2.38). Тъй като ядрото на паметта е много по-бавно от входно-изходния буфер, разликата се преодолява чрез паралелен достъп до информацията, която след това се извежда чрез интерфейса. Например, DDR3 предварително извлича осем порции от данни, което означава, че всеки път, когато се изпълнява операция за четене или запис, се предават осем порции от данни, което се синхронизира в интерфейсния буфер по двата фронта на учетворената тактова честота. Така, може да се каже, че, интерфейсът е осем пъти по-бърз от ядрото на DRAM.

Недостатъкът на предварителното извличане от ядрото е, че то определя минималната дължина на пакета (BL=8, Burst Length). Например, много е трудно да имаме ефективна дължина на поредицата от четири порции, при предварително извличане на осем такива. Новото в DDR4 е съчетанието на технологията 8n-Prefetch с банковото групиране. Функцията на банковата група позволява на дизайнерите да поддържат по-малка предварителна извадка, като същевременно увеличават производителността, както ако предварителната извадка е по-голяма.

Тъй като скоростта на ядрото не се променя значително от поколение на поколение, предварителното извличане се е увеличило с всяко поколение DDR, за да предложи по-голяма скорост на SDRAM интерфейса. Продължаването на тази тенденция в DDR4 би наложило да се приеме технология 16n-Prefetch. Такава промяна би направила DRAM много по-голяма поради всички кабели, които трябва да бъдат изградени. DRAM ще са прекалено скъпи, така че дизайнерите се отказват от тези разходи. По-важното е, че предварителната извадка от шестнадесет порции няма да съответства на размера на линията на кеша от 64 байта, обичайна за днешните компютри. С 64-битовия или 72-битовия интерфейс в типична изчислителна среда, която използва 64-байтова кеш линия, предварително извличане на осем, заедно с дължина на пакета от осем, е по-добро съвпадение. Всяко такова несъответствие на размера на линията на кеша и дължината на пакета може да има отрицателно въздействие върху работата на вградените системи.

Ядрото на паметта е доста бавно и това се променя незначително във времето, докато скоростта на входно-изходния интерфейс се е увеличила значително с течение на времето. Ако основната честота варира в интервала 100, 200[MHz], трансферът на данни се е увеличил от около 1300[Mb/s] през 2010 година, до около 3000[Mb/s] през 2017 година. Ядрото на SDRAM не е станало по-бързо във времето до голяма степен поради това, че всички ползи, получени от процес с по-малка дискретизация, са компенсирани от много по-големия му капацитет. Дизайнерите в крайна сметка се борят за увеличаване на капацитета, което се постига с миниатюризация на процеса. Въпреки това, входно-изходния интерфейс е последователно по-бързо с всяко ново поколение.

На следващата фигура е показано как предварителното извличане се е развило през четири поколения SDRAM, от SDR до DDR3. За всяка основна операция с една колона (четене или запис) броят на думите, до които се осъществява достъп веднага, е представен от броя на масивите на паметта, заедно с приблизителното време на цикъл (MHz), което е необходимо, за да се извлекат тези думи от или в ядро на паметта.

Фиг. 4.2.2.41. Еволюция на DRAM-Prefetch

DDR4 избягва проблема с въвеждането на по-висок Prefetch, като въвежда концепцията за банкови групи. При банкови групи се извършва предварителна извадка от осем порции данни от/в една банкова група, а друга предварителна извадка от осем порции може да се извърши в друга независима банкова група. Банковите групи са отделни единици, така че позволяват цикъл на колони да се завърши в рамките на банкова група, но този колонен цикъл не влияе на това, което се случва в друга банкова група. Всъщност, DDR4 може да мултиплексира своите вътрешни банкови групи с времево разделяне, за да скрие факта, че вътрешното време на основния цикъл на ядрото отнема повече време от интервала за осем порции. Следващата фигура показва как този процес търси x16 DDR4 с две банкови групи, които често се използват във вградени приложения.

Фиг. 4.2.2.42. DRAM4-Prefetch Решение за извличане на осем

Въвеждането на банкови групи идва с нови спецификации за DDR4. Две ключови спецификации са t_{CCD_S} и t_{CCD_L}. Таймингът CCD (Column to Column Delay) означава “закъснение от колона до колона” или “команда за закъснение на командата” от страната на колоната. Символът “_S“ означава “кратко“ (Short), а "_L“ означава “дълъг“ (Long).

Когато една команда се стартира в една банкова група с 8n предварително извличане, предварителната извадка трябва да бъде разрешена, за да завърши цялото време на цикъла на групата. Преминаването от една банкова група към друга банкова група няма зависимост от тези спецификации. Такъв е случаят с използването на спецификацията t_{CCD_S}, която при четири тактов цикъл, е не ограничаваща по начин, подобен на DDR3.

Но ето и още особености. Преминаване от една банка към друга банка изисква закъснение t_CCD=4Т. Преминаването от команда към команда, докато сте в рамките на една и съща банкова група, изисква закъснение t_{CCD_L} , което не е постоянно за различните памети и обикновено е по-голяма от 4Т, като при най-бързите памети достига до 8Т.

Памет от тип DDR5

Както беше отбелязано още през май 2018 г., основната новост на DDR5 ще бъде както завишения капацитет на чиповете, така и по-високата производителност и по-ниската консумация на енергия. DDR5 се очаква да реализира пропускателна способност в интервала от 4266 до 6400[MT/s]. Захранващото напрежение бележи спад до 1,1 – 1,05[v]. Очакват се модули с два независими 32/40-битови канала. Освен това, DDR5 ще има подобрена ефективност на командната шина, по-добри схеми за опресняване и увеличена банкова група. Една от най-важните характеристики на DDR5 ще бъде монолитна плътност на чиповете над 16[Gib]. Водещите производители на DRAM вече имат монолитни DDR4 чипове с капацитет 16[Gib], но тези устройства не могат да използват екстремни тактови честоти, поради законите на физиката. С много от проблемите производителите очакват да се справят ако успеят да усвоят степен на дискретизация от порядъка на 10-12[nm].

DDR5 SDRAM ще постига по-висока скорост, като използва технология 16n-Prefetch в буфера за предварително извличане. DDR5 разделя банките DRAM на две, на четири или на осем избираеми банкови групи, докато DDR4 използва до 4 банкови групи. Добавят се и някои нови функции:

Както читателят разбира, към този момент нищо сигурно за този вид памети не е известно. Все още нещата са в сферата на патентите и на стандартите, за които се конкурират различни фирми. Научните изследвания няма да спрат и в мрежата вече се анонсира памет от тип DDR6. От нас се очаква добре да “смелим” вече известното, защото то ще ни помогнем по-лесно да разберем новите идеи.

Новият тип памет - DDR5, като наследник на DDR4, е разработен, за да подобри производителността. С тази памет системните дизайнери се чувстват все по-силни в непрекъснатия технологичен напредък, където текущата пропускателна способност на паметта просто не е в състояние да се справи с по-новите модели процесори, имащи нарастващи основни параметри. Основният драйвер на DDR5 обезпечава необходимостта от по-висока честотна лента.

В сравнение с DDR4 при еквивалентна скорост от 3200 мега-трансфера в секунда [MT/s], симулацията на системно ниво на DDR5 показва приблизително увеличение на производителността на ефективната честотна лента до 1,36 пъти. При по-висока скорост на пренос на данни, например при DDR5-4800, приблизителното увеличение на производителността става 1,87 пъти – което е почти двойно по-голяма честотната лента, в сравнение с DDR4-3200.

На системно ниво, въпреки скромните подобрения в тактовата честота, преходът към много-ядрени процесорни архитектури е позволил непрекъснато увеличаване на производителността на изчисленията от година на година. Изкривяванията на сигнала, консумацията на енергия, сложността на оформлението и други предизвикателства на ниво система ограничават повишаването на тактовата честота на ядрото на процесора. Едновременно с това броят на CPU ядрата непрекъснато се увеличава, което ограничава наличната честотна лента на паметта в ядрото. За да отговорят на изискванията на следващата генерация в честотната лента на ядрото, са необходими нови архитектури на паметта, извън сегашната DDR4 SDRAM. Докато DDR4 предлага трансфер на данни от 1600 [MT/s] до 3200 [MT/s], DDR5 понастоящем е дефиниранa с данни от 3200 [MT/s] до 6400 [MT/s]. Увеличаването на скоростта на предаване на данни ще позволи на ядрото да запази съществуващата пропускателна способност.

Основните постижения на дизайнерите са във входно-изходния буфер. Тук са добавени критично нови функции, които позволяват постигането на тези по-високи скорости на пренос на данни. Една от тях е добавянето на изравнител за обратна връзка с многократно натискане (DFE) в DQ приемниците. Други нови функции, които позволяват увеличаване на скоростта на данните, включват:

· Верига за настройка на работния цикъл (DCA, Duty cycle adjuster), способна да коригира както DQ, така и DQS работните цикли за вътрешния път на четене. Това помага да се коригират малките деформации (закъснения) на работния цикъл, които възникват естествено, тъй като тези сигнали преминават през устройствата и печатни платки, като в крайна сметка оптимизират работните цикли за DQ и DQS сигналите, получени от контролера;

· DQS интервална тактуваща верига, която позволява на контролера да следи промените в задръжките на DQS часовника, причинени от промени в напрежението и температурата. Това позволява на дизайнерите на контролерите активно да решават дали и кога пренастройката може да бъде полезна и необходима, за да се запази оптималното време за запис;

· Въведени са нови и подобрени режими на обучение, включително нов режим за обучение на преамбюла за четене, режим за обучение на командите и адресите, режим на обучение за избор на чип и режим на обучение за изравняване при запис. Изравняването при запис осигурява същата способност като DDR4, която позволява на системата да компенсира разликите във времето между CLK модула по пътя му до всяко DRAM устройство (което варира в зависимост от маршрута по модула на паметта) и DQ и DQS пътищата (които са къси, тъй като се намират във вътрешността на интегралните схеми). Освен това, DDR5 има нова функционалност, компенсираща новата DQ-DQS архитектура на приемника, което допълнително позволява по-бързи скорости на предаване на данни;

· Прочитане на тренировъчните модели с регистри за специален режим. Свързаните данни включват модела по подразбиране, програмиран сериен модел, прост образец на часовника и генериран модел на линеен обратен изместващ регистър (LFSR), които в крайна сметка осигуряват по-стабилна граница за времето за високи скорости на данни;

· Вътрешни референтни напрежения за командните и адресните пинове (V_REFCA), както и пина за избор на чип (V_REFCS). В допълнение към вътрешното референтно напрежение е и това за DQ пиновете (V_REFDQ), което подобрява границата на напрежението на DQ приемниците. Тези нови вътрешни референтни напрежения за командния/адресния и за чип селекционния пин, подобряват границата на напрежението на техните съответни приемници и допълнително позволяват устройство да постигане по-висока скорост на предаване на данни;

· Функции на протокола за ефективност. В допълнение към по-високите скорости за пренос на данни и подобренията в I/O-буфера, DDR5 въвежда други нови функции на протокола, които не са свързани със скоростта на предаване на данни, и които са неразделна част от увеличаването на честотната лента и производителността. Например, DDR5 DIMM модулите имат два независими канала с 40 бита (32 бита плюс ECC). Когато се комбинира с нова дължина на пакета по подразбиране от 16 (BL16) в компонента DDR5, това позволява дължината на един пакет да достигне до 64B (типичния размер на линията на кеша на процесора), използвайки само един от независимите канали или само половината от DIMM. Осигуряването на тази способност за разместване на достъпа от тези два независими канала дава възможност за огромни подобрения на конкурентността, като по същество превръща 8-каналната система, каквато я познаваме днес, в 16-канална система.

Фиг. 4.2.2.43. DDR5 DIMM

В запомнящия масив на DDR5, броят на банковите групи (BGs) се удвоява в сравнение с DDR4, като броят на банките в банковите групи остава същият. Това позволява на контролерите да избягват влошаването на производителността, свързана с последователния достъп до паметта в рамките на една и съща банка.

В следващата таблица е изразен паралелът между DDR4 и добавените подобрения в DDR5 архитектурата.

Таблица 4.2.2.3. Сравнение на характеристиките на устройствата между DDR4 и DDR5 SDRAM

Feature	DDR4	DDR5	Ползи / Подобрения
Скорост на предаване	1600-3200 [MT/s]	3200-6400 [MT/s]	Повишена производителност и пропускателна способност

Плътност на устройствата	2-16 [Gib]	8-64 [Gib]	По-големи монолитни устройства.

Prefetch	8n	16n	Позволява по-високи скорости на пренос на данни, като запазва вътрешния обхват на часовника на ядрото подобен на DDR4.

Изравняване на DQ приемника	няма	Multi-tap DFE	Отваря DQ за данни вътре в DRAM, като директно позволява висока скорост на предаване на данни.

Настройка на работния цикъл (DCA)	няма	DQS and DQ	Позволява на контролера да компенсира изкривяването на работния цикъл (DCD) на всички DQS и DQ игли(pins) чрез регулиране на работния цикъл вътре в DRAM.

Вътрешен мониторинг на забавянето на DQS	няма	Осцилатор на интервала DQS	Осигурява метод за контролера да реши дали / кога да се преквалифицира въз основа на промени в закъсненията на DRAM, причинени от промени в напрежението и температурата; осигурява стабилност срещу промени в околната среда.

По време на ECC	няма	128[b] + 8[b] SEC, проверка за грешки и изправяне	Укрепва RAS на чип; намалява тежестта върху контролера.

8CRC	Запис	Четене / Запис	Укрепва системния RAS чрез защита на прочетените данни.

Bank groups (BG)/banks	4 BG x 4 банки	8 BG x 2 banks (8[Gib] x4/x8) 4 BG x 2 banks (8[Gib] x16) 8 BG x 4 banks (16-64[Gib] x4/x8) 4 BG x 4 banks (16-64[Gib] x16)	Помага да се избегнат влошаването на производителността от последователния достъп до паметта на една банка

Интерфейс Команди / Адреси	ODT, CKE, ACT, RAS, CAS, WE, A<X:0>	CA<13:0>	Изисква два цикъла за някои (но не всички) команди, което значително намалява броя на пиновете на CA (Counter Address).

ODT	DQ, DQS, DM/DBI	DQ, DQS, DM, CA bus	CA ODT осигурява подобрена цялост на сигнала и спестява разходите за спецификация, като елиминира външната свързваща резисторна мрежа за CA шината.

BL (Дължина на пакета)	BL8 (and BL4)	BL16, BL32 (and BL8 OTF, BL32 OTF)	В комбинация с 2-канална DIMM архитектура, позволява извличане на 64B кеш линия, използвайки само половината от DIMM.

Инверсия на шината	Инверсия на шината за данни (DBI)	Инверсия на шината Команда/Адрес (CAI)	Намалява мощността и шума на V_DDQ линията.

CA обучение, CS обучение, запис на нива за обучение	Режим запис на нивата за обучение	CA обучение, CS обучение и режими за запис на нивата за обучение	Подобрената граница на синхронизация на пиновете CA и CS, позволяваща по-бързи скорости на пренос на данни. Обучението за нивелиране на запис в DDR5 също компенсира разнородното DQ-DQS трасе на устройството, което улеснява поддръжката на бързи скорости на пренос на данни с кратки преамбюли за запис и позволява по-кратки превключвания на шината.

Четене на моделите за обучение	Възможно с MPR	Специализирани MRs за серийни (потребителски дефинирани), часовник и LFSR генерирани обучителни модели	Специализираното обучение за четене включва MRs за избор на модел на обучение, включително такъв, който използва LFSR за осигуряване на PRBS модел. Това осигурява по-надеждна граница за отчитане на времето, особено при по-високите скорости на пренос на данни.

Регистри на режима	7 x 17[b]	До 256 x 8[b] (четене / запис от тип LPDDR)	Ниша за разширяване, което е необходимо за новата поддръжка и подобрения на функциите.

Команди PRECHARGE	Всички банки и всяка банка поотделно	Всички банки, всяка банка поотделно и отделна банка	SAME BANK PRECHARGE (PREsb) дава възможност за предварително зареждане на конкретна банка във всяка банкова група, като запазва активното състояние на всички останали банки непроменени.

Команди REFRESH	Всички банки	Всички банки, както и отделна банка	SAME BANK REFRESH (REFsb) дава възможност за опресняване на конкретна банка във всяка банкова група, като по този начин всички останали банки в банковата група имат свободен достъп.

Режим на обръщение	няма	има	Позволява тестване на DQ и DQS сигнализацията между контролера и DRAM, изолирайки реалния масив от паметта, тъй като достъпът за четене / запис не е необходим.

Следващият раздел е:

4.2.2.1. Контролер на съвременни динамични памети