仕事で役立つ人気ビジネスアプリおすすめ!
[PR]
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
ISSCC 2007におけるマイクロプロセサ関係の発表
近年のハイエンドマイクロプロセサは、1V、100Aクラスの電源供給が必要であり、さらに動作状態により電流が短時間に大きく変動する。一番問題になるのはチップを入れるパッケージの電源層のインダクタンスで、電流が変化すると L*dI/dt で電源電圧が変化してしまう。そして、電源電圧が基準より高くなるとゲート酸化膜が絶縁破壊して故障の原因になるし、電源電圧が下がると回路の動作速度が遅くなり誤動作を引き起こす。
しかし、プロセサチップの中でも電源電圧は均一ではないし、高速で数百mV以下の電源変動をキャッチするのは容易ではない。この分野では従来から色々な研究があるが、今回のISSCCでは、面白い論文が幾つか発表されたので、まとめて紹介する。
POWER6のクリティカルパスモニタ
回路の動作速度は、製造ばらつき、温度、電源電圧などの影響を受けるが、これを測定する回路をPOWER6プロセサチップに組み込んで測定を行ったという発表である。
クリティカルパスモニタ(CPM)は、各種のクリティカルパスの特性を模擬するため、配線、NANDゲート、NORゲート、ALU、パスゲートの5種の回路のチェインを作り、これらの出力を選択してエッジ検出器に入力するという構造になっている。
クリティカルパスモニタのブロックダイヤ。クリティカルパスを構成する代表的なゲートや配線のチェインの出力を選択し、エッジ検出器で遅延時間を測る。
そして、エッジ検出器は入力信号がクロックのエッジに対してどのようなタイミングで到着したかを検出する機構で、次の図のような回路となっている。
エッジ検出回路。クロックのエッジのタイミングでインバータチェインの値をサンプルしてFFに保持する。
入力が"0"から"1"に変化する場合、この変化は入力から順にインバータのチェインを伝わっていくので、入力に近い側のインバータの出力は既に変化してしまい、入力から遠いインバータの出力はまだ変化していないという程度のタイミングで入力を入れてやると、信号が到着して変化した部分は"0"、信号が到着しておらず変化していない部分は"1"となる出力が得られる。つまり、インバータ1段分の遅延時間の分解能で、信号の到着のサンプリング波形が得られる。
POWER6では、このようなCPMを各コアに8個とノンコアの部分(ネストと呼ぶ)に8個埋め込んでいる。これらのモニタの出力を読み出すことにより、チップごとの遅延時間の違いや、電源や温度を変えた場合に遅延時間がどのように変化するかをディジタルに読み出すことが出来る。
コア部とネストではクリティカルパスの性質が多少違うので、CPMの設計も多少異なっており、コア部のCPMのサイズは90×36μm、ネストのCPMは90×48μmである。これらのCPMを全部合計しても1平方mm弱であり、341平方mmのPOWER6全体から見ると無視できる程度のオーバヘッドである。
ドリームチェイサーonアトラスV?
公開されたイメージ。Atlas Vの先端にDream Chaserが取り付けられている
米SpaceDevは10日(現地時間)、同社が開発を進めている再使用型有人宇宙船「Dream Chaser」について、大型ロケット「Atlas V」で打上げるための検討に入ることを発表した。Atlas Vを開発・製造する米United Launch Allianceと、協業に関する覚書(MOU)を締結したもの。Dream Chaserは6~8人乗りの宇宙船で、2009年の初フライトを目指している。
Dream Chaserは、米航空宇宙局(NASA)の「HL-20」をベースに開発が進められているという垂直離陸・水平着陸型の有人宇宙船。サブオービタル(弾道飛行)・オービタル(周回軌道)のどちらにも対応可能とされ、国際宇宙ステーション(ISS)への往還にも利用できるとしている。SpaceDevは史上初の民間有人宇宙船となった「SpaceShipOne」にエンジンを提供した実績があり、Dream Chaserにも同様にハイブリッド型のエンジンが搭載される。
United Launch Alliance(ULA)は、Lockheed MartinのAtlasシリーズとBoeingのDeltaシリーズを保有する合弁企業で、両社の出資により2006年に設立された。Dream Chaserの搭載が予定されるのは最新の「Atlas V」ロケットで、SpaceDevとULAの両社で商業打上げサービスに向けた技術的な要件について検討するとしている。Atlasシリーズは本来、使い捨て型の無人ロケットであるため、Dream Chaserによって初の有人打上げとなる可能性がある。
Dream Chaser搭載時のAtlas Vのコンフィギュレーションは、固体ロケットブースター(SRB)を3本装着する「431」型(打上げ能力:LEO時で13.62トン)となる見込み。詳細については明らかにされていないが、プレスリリースに掲載されたイラストには、Atlas Vの先端にDream Chaserが取り付けられている様子が紹介されている。
TSMC、45nmプロセスのロードマップを公開
台湾の半導体ファウンドリTaiwan Semiconductor Manufacturing Company(TSMC)は13日、都内で会見を開き、45nmプロセスのチップの量産化について具体的な説明を行った。さらに会見では、来年(2008年)第2四半期に45nmプロセスのハーフシュリンクとなる40nmプロセス「CLN45GS」に取り掛かる予定であるとも語った。
40nmプロセスについて語るTSMCジャパンのField Technical Support & Marketingディレクターの石原宏氏
同社は今月10日に45nmプロセスで製造するチップの量産化を発表しているが、今回の会見では具体的なロードマップを示した。45nmプロセスでは、最初にロジック回路で構成されるチップ向けの低消費電力プロセス「CLN45LP」を投入するという。その後、2008年第1四半期にはDRAMで構成されるチップ向けのプロセス「CLN45LP」を導入。2008年第2四半期に、ミクスドシグナル(アナログ・デジタル混載)およびRF用チップ向けの「CRN45LP」を順次投入する。さらに、低消費電力プロセスと高速なチップ向けのプロセスを組み合わせたプロセス「CLN45LPG」を来年第2四半期から導入する予定。
45nmプロセスのハーフシュリンクとなる40nmプロセスについては、「CLN45GS」のほか、ミクスドシグナルおよびRF向けの「CMN45GS」や、DRAM向けの「CLN45GS」をともに来年の第3四半期に投入するという。
会見では、45nmプロセスで製造するチップの試作サービス「CyberShuttle」を本年(2007年)5月に開始するとも発表した。CyberShuttleについては、現在、すでに多数の予約が入っているという。本年は5月、9月、12月に実施し、来年からは隔月で実施する予定。
コンピュータアーキテクチャの話 (76) Lingアダー
Lingアダー
1981年にIBMのワトソン研究所のH.Ling氏は、P、G信号とは異なるキャリーの計算方法を提案し、この方式の方が計算が容易で、高速に加算が実現できるという論文を発表した。この方式は、発明者のLing氏にちなんでリングアダーと呼ばれている。
Ling氏の方式では、Lingキャリーと後に呼ばれることになるHiを、
Hi = Ci+Ci-1
と定義する。ここで、Ci、Ci-1は通常のiビット目とi-1ビット目のキャリーである。このように定義すると、
Hi = Gi+Gi-1 + Pi・Gi-1 + Pi-1・Gi-2 + … + Pi-1・Pi-2・…・G0 + Pi・Pi-1・…・G0
となる。しかし、Gi-1+Pi・Gi-1はGi-1、…、Pi-1・Pi-2・…・G0+Pi・Pi-1・…・G0はPi-1・Pi-2・…・G0と同じであるので、この式は次のように簡単化できる。
Hi = Gi+Gi-1 + Pi-1・Gi-2 + … + Pi-1・Pi-2・…・G0
例えば、通常のキャリーC5は、
C5 = G5 + P5・G4 + P5・P4・G3 + P5・P4・P3・G2 + P5・P4・P3・P2・G1 + P5・P4・P3・P2・P1・G0
で計算されるのに対して、リングキャリーH5は、
H5 = G5 + G4+P4・G3 + P4・P3・G2 + P4・P3・P2・G1 + P4・P3・P2・P1・G0
で計算することが出来る。ORの項数はどちらも同じであるが、2項目以降はANDされる項数が一つづつ減っており、リングキャリーの方が通常のキャリーより高速に計算することが出来る。
しかし、当然、これにはデメリットもあり、和SiはAi(+)Bi(+)Ci-1では計算できず、
Ci-1 = Pi-1・Hi-1 = Pi-1・Gi-1 + Pi-1・Gi-1 + Pi-1・Pi-2・Gi-2 + Pi-1・Pi-2・Pi-3・Gi-3 + …
であるので、
Si = *Hi-1・(Ai(+)Bi) + Hi-1・(Ai(+)Bi(+)Pi-1)
で計算する必要がある。
Ling氏のアイデアは、2ビットづつ纏めて計算すると計算が容易になるというのが原点であり、上記のH5と対になるH4は、
H4 = G4 + G3+P3・G2 + P3・P2・G1 + P3・P2・P1・G0
である。ここで、Gi・PiとGiは等しいので、これを用いてH5、H4の式を変形すると、
H5 = (G5+G4)+P4・P3・(G3+G2) + P4・P3・P2・P1・(G1+G0)・H4 = (G4+G3)+P3・P2・(G2+G1) + P3・P2・P1・P0・G0
となる。更に、Fi=Gi+Gi-1、Qi=Pi・Pi-1と定義すると、G-1は"0"であるので、
H5 = F5+Q4・F3+Q4・Q2・F1 = (F5,Q4)×(F3,Q2)×(F1,Q0)・H4 = F4+Q3・F2+Q3・Q1・F0 = (F4,Q3)×(F2,Q1)×(F0,Q-1)
となる。この形はP、Gを使った計算と同じ形であり、P、Gの代わりにQとFを使ったプレフィックス演算でHを求めることが出来る。但し、Pi-1は"0"であるので、Q0、Q-1は"0"である。
このQとFを用いるプリフィックス演算回路を次の図に示す。
FとQのプリフィックス演算を行うH-Boxの論理回路
LingキャリーHの計算もプリフィックス計算であるので、キャリーCの計算と同様に、分割の仕方により各種の構成が可能である。次の図に、Sklansky型のLingキャリー計算回路を示す。
Sklansky型のLingキャリー計算回路
また、Kogge-Stone型にLingキャリー計算回路を構成すると次の図のようになる。
Kogge-Stone型のLingキャリー計算回路
Lingキャリー計算は、偶数ビットと奇数ビットの2グループで行われるため、演算ビット数の半分のビット群のLingキャリーを纏める回路が二組ある形となる。このため、ここに掲げた二つのLingキャリーの計算回路を、前に掲げた通常のキャリーを計算する回路と比べると、キャリー計算に必要なボックス段数が1段少なくて済む。しかし、次に述べるように最終結果である和を求めるには、セレクタが1段必要となる。
次の図にKogge-Stone型のキャリー計算回路を用いるLingアダーの回路図を示す。
Kogge-Stone型キャリー計算回路を用いるLing Adder
入力は、通常のアダーと同じP、G信号とA(+)B信号であるが、その次のグレーのボックスはP,G信号からQ,F信号を作り出す部分である。この部分は、
Fi = Gi+Gi-1・Qi = Pi・Pi-1
を作れば良いので、それぞれORとANDで簡単に生成できる。そして中間の白い箱はプリフィックス演算を行うH-Boxであり、最後のひし形の箱は、和Sを計算する部分である。前に述べたように、Sは次の式で表わされるので、
Si = *Hi-1・(Ai(+)Bi) + Hi-1・(Ai(+)Bi(+)Pi-1)
Hi-1が"0"の場合には(Ai(+)Bi)を出力し、Hi-1が"1" の場合には(Ai(+)Bi(+)Pi-1)を選択する次の図に示すようなセレクタで実現できる。
和Sのセレクタ回路
上に掲げたLing Adder全体の図で分かるように、Hi-1と(Ai(+)Bi(+)Pi-1)は並列に計算することができ、(Ai(+)Bi(+)Pi-1)の計算は論理段数が少なく早く計算できるので、和Siの計算はHi-1の計算が速度を決めるクリティカルパスになる。
前述のように、通常のキャリーCi-1よりLingキャリーHi-1の方がボックス1段分短い時間で計算できる。しかし、図の中でグレーの箱で示したF、Qの生成にOR(あるいはAND)ゲート1段が必要であり、また、和Sの生成に上記の図のようにインバータ1段とAND-OR 1段からなるセレクタが必要となるので、これらの論理回路の遅延時間とボックス1段分の遅延時間のどちらが短いかということになる。単純にゲート段数だけを見ると、ボックス1段はAND-OR 1段であり、Lingアダーの方がORとインバータ1段分だけ通過する論理回路が多いが、どのような回路形式を用いるか、配線長がどうなるかなどにより得失が変わってくる。
Lingアダーを用いたマイクロプロセサとしては、HP、Intelを経て現在はAMDに勤めているSamuel Naffziger氏が1996年のISSCCで発表したHPのPA8000が知られている程度であまり採用例は多くないと思われるが、 Parallel Prefix Adderとして通常キャリーを用いる方式と同程度の遅延の高速アダーを実現できる方式である。
インテルの企業向け戦略「デジタル・エンタープライズ」とは (1) 見えてきた次世代Core2プロセッサPenryn
阿部剛士氏
インテル マーケティング本部 本部長
インテルは19日、プレス向けに同社の「デジタル・エンタープライズ」に関する情報のアップデートを行った。デジタル・エンタープライズとは、インテルが取り組むフォーカスエリアの1つで、主として企業をターゲットとした各種コンピューティングへの取り組みを指す。
まず登壇した同社のマーケティング本部 本部長の阿部剛士氏は、「2007年の目玉は新しい(45nm)製造プロセス」だとした。インテルでは、プロセスの変更とアーキテクチャの刷新を交互に行う「Ticktack Approach」を採っており、2006年のCore 2マイクロアーキテクチャの投入に続いて、2007年後半には45nmプロセスでの量産が開始されるという。
次世代Core2プロセッサファミリとなる「Penrynプロセッサ」(開発コード名)は、すでに45nmプロセスによる動作サンプルが完成しているという。このプロセス技術のもう1つのトピックは、High-K(高誘電率)ゲート絶縁膜と金属ゲートを採用したことだという。阿部氏によればこれは、「インテルがMOSテクノロジを使い始めてから40年目にして、はじめて使用する素材」だという。65nmプロセスから45nmプロセスに変更することで、トランジスタの実装密度が2倍になり、トランジスタのスイッチング速度が20%向上すると同時にスイッチング時の電力が30%削減できるという。
次世代Core2プロセッサファミリ「Penrynプロセッサ」:ちなみにPenryn(ペンリン)は、イングランド南西部のコーンウォール州にある街の名前
High-K(高誘電率)ゲート絶縁膜と金属ゲートを採用したトランジスタと通常のトランジスタの比較
また、阿部氏は将来の「テラスケール・コンピューティング」のために試作された80コアのタイル型デザインのプロセッサに関しても言及し、1億トランジスタで動作周波数は3.16GHz、消費電力は約62Wで、コア当たりの消費電力は単純計算で1W以下、といった現時点でのスペックを紹介した。また、このプロセッサはラボでは5.7GHz程度のクロックで動作した実績があるといい、その際の性能は1.8TFLOPS以上に達したという。コアのアーキテクチャは現在のIAとは異なり、ソフトウェアの互換性などを持たない純粋な研究試作段階のものだが、ラボでの研究は5~10年後の商用製品化を目指して行われているそうで、将来はIAコアを採用したタイル型プロセッサの開発も想定されているという。