仕事で役立つ人気ビジネスアプリおすすめ!
[PR]
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
ルネサス、米国で10月に開発者カンファレンスを開催
ルネサス エレクトロニクスは、米国で開発者カンファレンス(デベロッパーズカンファレンス)を開くことを明らかにした。主催するのは同社の米国法人「Renesas Electronics America」で、「Renesas Electronics Developers Conference 2010」の名称で2010年10月11日~14日に米国カリフォルニア州アナハイム市で開催する予定。
Renesas Electronics Developers Conference 2010のバナー
Renesas Electronics Developers Conference 2010では、ルネサス エレクトロニクスの16bit/32bitマイコンを使用したシステムの開発技術や開発環境などの講演が数多く予定されている。10本近いセッションが同時に実施される時間帯もある。同社が北米市場を開拓する上で重要なイベントとなることは間違いないだろう。
なおルネサス エレクトロニクスはNECエレクトロニクスとルネサス テクノロジ(旧ルネサス)が2010年4月1日に合併して誕生した大手半導体ベンダだが、旧ルネサスの米国法人は2008年10月に開発者カンファレンス「Renesas Developers Conference 2008」を主催したことがある。
また詳細は不明だが、10月にはドイツでも開発者カンファレンスを開催するもようだ。
FSL、シリアルI2Cバスに対応した汎用FRAM2製品を発表
富士通セミコンダクター(FSL)は7月16日、シリアルI2C バスを搭載した、128KビットFRAM「MB85RC128」と64KビットFRAM「MB85RC64」を汎用FRAMのラインナップに追加したことを発表した。RC128は年間100万個、RC64は年間200万個の販売を目指すという。
MB85RC64
2製品は、I2Cバス搭載の外付けメモリとして一般的なEEPROMとピン互換であるため、置き換えが可能。I2C通信レート400KHz内でリアルタイムのリード/ライトが可能なほか、書き込み回数はEEPROMの106回と比較して、FRAMは1010回と1万倍書き込み回数が多く、電源オフ・瞬電時にもデータを保持することが可能だ。
また、データの上書き・高速書き込みが可能なため、EEPROMやフラッシュメモリのようにライトビジーが発生せず、ACK(確認応答番号)の応答が完了した直後に、データ書き込みを完了することが可能。これにより、EEPROMと比較し、リード時やライト時のエラー発生を最小限に抑えることができるようになっている。
なお、同社では、今後はシリアル通信インタフェースSPIバスを搭載した商品や、パラレル通信インタフェースの商品の開発を進め、カスタマが使いやすい汎用FRAMを充実させていく計画としている。
汎用FRAMのラインナップ
NVIDIAのFermiで新設されたキャッシュは効いているのか
従来のGPUは定数やテクスチャ用のキャッシュを持っていたが、これらはCPUで言えば命令キャッシュのような読み出しオンリーのキャッシュで、書き込みが行えるデータキャッシュを持っていなかった。このため、高速に読み書きが必要なデータはローカルメモリに配置し、必要に応じてGDDR DRAMで構成されるグローバルメモリとのデータの入れ替えを行うというプログラムを書く必要がある。この点は、PS3に使われているCellプロセサの同様で、ローカルメモリをうまく使えば高い性能が得られるが、プログラミングが難しい、面倒という批判がある。
これに対して、NVIDIAのGF100(開発コード名:Fermi)では各Streaming Multiprocessor(SM)が持つ64KBのローカルメモリをシェアードメモリ部分と1次データキャッシュ部分に分割できるようになった。この分割はシェアードメモリを16KBでキャッシュを48KB、あるいはその逆にシェアードメモリが48KBで16KBをキャッシュとすることができる。
シェアードメモリはグローバルメモリとは独立のメモリ空間のローカルなメモリであり、プログラムで明示的に区別して使用しグローバルメモリとの間でデータの転送を行う必要があるが、1次データキャッシュはグローバルメモリとのコヒーレンスがハードウェアで維持される本物のキャッシュである。一部、推測が入っているが、メモリ系を中心にGF100(Fermi)のブロック図を書くと、次の図のようになる。なお、2次キャッシュは6個あるが、それぞれ異なるメモリアドレスを分担しているので、コヒーレンシ制御は必要ない。
GF100(Fermi)のブロック図(一部筆者の推測を含む)
キャッシュ利用により、非利用時比で50%の性能向上も
質問に答えるNVIDIAフェローのDavid Kirk氏
2010年7月16日に開催されたNVIDIAの「GPU Computing 2010」において、同社フェローのDavid Kirk氏との質疑の機会があったので、キャッシュの効果を示すデータは無いのかと質問してみた。すると、公表されたデータは無いが、設計の意図を説明することはできると述べて、次のように説明してくれた。
CPUのキャッシュは1つのスレッドが多数のキャッシュラインを使うことができ、頻繁に使うデータ群を格納しておくのであるが、GPUのキャッシュは1つのスレッドに1つのキャッシュラインがあるかどうかという程度の量しかないので、データを溜めておく効果は小さい、むしろ、1つのスレッドが計算した値を多くの(同じSMで動く)スレッドに渡すというクロスバスイッチ的な効果を期待しているという。
確かに48KB分をキャッシュとして確保しても、64バイトキャッシュラインとすると768ラインしかない。これに対して、各SMに100ワープを割り当てたとすると、各ワープには32スレッドが含まれるので全体では3200スレッドとなり、約4スレッドに1つのキャッシュラインしかないことになる。したがって、スレッドごとに個別となるデータを1次キャッシュに格納することはできない。しかし、この事情はシェアードメモリとして使っても同じで、やはり全スレッドで共通的に使うデータを格納することになる。
ということで、設計の意図は分かったが、どの程度効果があるのかというデータは分からず仕舞いかと思っていたら、スケジュールのほぼ最後に富士通研究所の成瀬氏が登壇してキャッシュの効果を説明するプレゼンテーションを行った。このセッションはNVIDIAの杉本事業部長の「GPUコンピューティングソリューションのご紹介」と題する発表で、その中で出展各社が10分程度で製品やサービスの説明を行ったのであるが、他社が宣伝的なプレゼンテーションであった中で富士通だけが純技術的なプレゼンテーションであった。
成瀬氏は、Fermiを使うGTX480と1世代前のGTX285グラフィックスカードを使って、理化学研究所(理研)の姫野龍太郎氏が作った流体解析の主要計算部分をベースとした姫野ベンチマークの実行性能を比較した。このベンチマークはメモリバンド幅リミットになるプログラムで、GTX480とGTX285のメモリバンド幅はほぼ同じであり、ほぼ同性能になることが予想される。
シェアードメモリを使って頑張ってチューニングしたCUDAプログラムの場合、GTX285では76.9GFlops、GTX480では74.0GFlopsという性能が得られたという。しかし、姫野ベンチの主要実行部分はオリジナルのCコードでは44行であるが、頑張ってシェアードメモリを使うチューニングを行ったCUDAプログラムは232行と、オリジナルの5.27倍の行数を必要としている。
一方、シェアードメモリを使わずオリジナルコードを単純にCUDA化したプログラムは69行になる。このプログラムでの姫野ベンチの性能は、GTX285が30.8GFlops、GTX480は43.0GFlopsとなったという。キャッシュを持たないGTX 285ではすべてのメモリアクセスがデバイスメモリとなるので、シェアードメモリチューニング版と比較すると約40%に性能が低下している。しかし、GTX 480では自動的にキャッシュが使われるので、シェアードメモリチューニング版の約58%の性能が得られている。つまり、キャッシュが利用できることにより50%近く性能が向上している。
しかし、シェアードメモリチューニングを行ったレベルとは大きな差がある。ということで詳しく調べてみると下図のように、同一のSM上で実行されるスレッドブロックの中の各ワープの実行時間がバラついており、これがキャッシュミスを引き起こしていることが分かったという。1つのスレッドがメモリからデータを読んでくると、他のスレッドはキャッシュに乗ったそのデータを利用できるのであるが、実行時間がバラつくと、遅いスレッドがそのデータを使う前に、速いスレッドが別のデータを読んでそのデータを上書きして消してしまうのが原因という。
スレッドブロック内のワープ間の実行時間のバラつき
ということで、__syncthreads( )関数を呼んでスレッド間の同期をとるようにプログラムを変更すると、同一スレッドブロック内のワープの実行時間が揃い、キャッシュミスが大幅に減ったという。さらにキャッシュミスを減らす若干の修正を加えたプログラムは74行となったが、GTX 480での実行性能は72.3GFlopsとシェアードメモリを使ってチューニングしたプログラムの74.0GFlopsと並ぶ性能になったという。
キャッシュチューニングを行った結果のワープ実行時間
姫野ベンチは1つの例であり、どのプログラムでも同じような効果が得られるというわけではないが、単純にCUDA化してコンパイルしただけで、キャッシュが使われることから50%程度の性能向上が得られ、さらに5行を追加してキャッシュミスを減らすチューニングを行うとシェアードメモリチューニング版のプログラムとほぼ並ぶ性能が得られている。このとき、キャッシュチューニングを行ったプログラムは74行に対して、シェアードメモリチューニングを行ったプログラムは232行であり、オリジナルからの増加分でみると30行と188行という違いとなる。プログラムの開発にかかる手間としては、この追加行数の比の6倍、あるいはそれ以上の違いとなると思われるので、Fermiのキャッシュは開発効率の点でも非常に効果が大きいと言える。
キャッシュチューニングを行った結果の性能とプログラム行数比較
プレゼンテーションの中では発表されなかったが、成瀬氏によるとGTX480のグローバルメモリのレイテンシは400ns程度でGTX285の350ns程度に比べて若干遅くなっている。メモリバンド幅では、多少、勝っているGTX 480の方が姫野ベンチの性能が低いのは、これが影響しているのではないかということであった。また、成瀬氏の実測ではGTX 480の1次キャッシュのアクセスレーテンシは約70ns、2次キャッシュのアクセスレーテンシは約250ns程度とのことで、CPUのキャッシュと比べるとこれでもキャッシュ? という程度の速度であるが、多数ワープを切り替えて実行する超マルチスレッド実行であるのでレイテンシを隠ぺいでき効果が出ているのであろう。
PALTEK、FPGA向けDSPソリューション評価ボード「HYUGA II」を開発
PALTEKは7月15日、Xilinxの40nmプロセス採用FPGA「Virtex-6」を採用し、ワイヤレス、画像システムの両方の分野で検証を可能にする「DSPソリューション評価ボード HYUGA II」を開発したことを発表した。
同ボードに搭載されるVirtex-6は、DSP設計向けに乗算器を多く搭載している「Virtex-6 SXT」で、A/Dコンバータ(ADC)を搭載したFMCボードやD/Aコンバータ(DAC)を搭載したTexas Instruments(TI)のボードとの接続が可能なため、アナログデータの入出力が実行でき、より現実的な無線システムの構成を検証することが可能だ。
「HYUGA II」
「HYUGA II」+FMCカード
また、ベースバンド処理からイーサネットやプロトコル処理などのネットワーク側の処理に関しては、CPUを含む処理としてTIのDSP開発キット「TMS320C6455 DSP Starter Kit」や「TMS320C6474 EVM」と接続し検証することも可能だ。
さらに、画像システムのアプリケーションにおいては、汎用のCPUでは実現が困難なスケーリングやH.264などの複雑な演算処理を目的としたボード構成となっており、DVI方式による画像の入出力が可能となっている。
なお、同社では同評価ボードのサンプルデザインを無償で提供しており、カスタマの開発期間短縮やコスト削減を実現し、設計者の立場に立った技術サポートを提供していくとしているほか、すでに無線処理および画像処理システム向けに提案を開始し、複数の引き合いを受けているとしている。
価格はメインボード+FMCボードで99万8,000円となっている。
筑波宇宙センターの新展示館が完成
宇宙航空研究開発機構(JAXA)は7月14日、筑波宇宙センター(茨城県つくば市)にこのたび完成した新しい展示館を報道向けに公開した。従来使っていた展示室が手狭になってきたために、入り口付近の敷地に新設されたもの。一般向けには今週土曜日(7月17日)より公開される。
AXAの筑波宇宙センター。アクセス方法はコチラを参照
新しい展示館の面積は1,460平方メートル。これまで衛星試験棟にあった展示室よりも約1.5倍の広さに拡張された。展示エリアには「人工衛星による宇宙利用」「有人・宇宙環境利用」「ロケット輸送システム」「宇宙科学研究・月惑星探査」の各ゾーンが設けられ、新しい展示物も加えて内容をより充実させた。
新設された展示館。ゲートを入って左折後、すぐの場所にある
こう見えても実はテントだったりする。といっても耐用年数は10年以上
来場者を出迎えるのは100万分の1の地球。奥には大型の展示が見える
逆に奥から入り口方向の俯瞰。展示スペースはかなり広くなった
新展示館の目玉と言えるのは、国際宇宙ステーション(ISS)へ物資を運ぶというミッションを完璧に成功させ、日本の高い技術力を見せつけた宇宙ステーション補給機「HTV」だろう。以前、宇宙ステーション試験棟のクリーンルーム内に保管されていたもので、春秋の一般公開で見た人も多いだろうが、これが常設展示となった。
もちろんこれは本物(実機)ではなく、実機相当の試験モデルではあるが、高さ4mに設置された展望ステージからの眺めは特筆もの。本当に目の前、手が届くような場所にHTVの非与圧部があり、そのスケール感が存分に伝わるものになっている。また、従来はなかった与圧部の模型も乗せられており、構造も分かりやすくなった。
展示されたHTVの試験モデル。右にある階段を登っていくと、非与圧部が目の前に!
展望ステージからはこの距離。HTVファンには堪らないだろう。本物の大きさを実感して欲しい
与圧部はいきなり実機を作ったので、試験モデルがなかった。そのため展示用に新たに模型を作って乗せた
下から与圧部の中が覗けるようになっている。ISSでの作業をイメージしてこうなっているが、もちろんHTVは無人機
曝露パレットは下に置かれている。ISSでは、ここに荷物を載せたままHTV非与圧部から出し入れされる
以前は宇宙ステーション試験棟に保管されていた。初号機も無事に上がったので、試験モデルは”お役ご免”に
HTVのランデブー・ドッキングがゲームに。減速すると前に出る、というのポイント
しかしまだバグがあるようで、枠内にちゃんと入れてもなぜかゲームオーバー
大型の展示物では、このほか、ISSの日本モジュール「きぼう」も注目。この実物大モデルは以前の展示室にもあったものだが、新展示館では天井が高くなった(最高16m)ことで、船内保管室を実機と同じように船内実験室の上に乗せることができた。この設備は中に入って見れるので、宇宙飛行士の気分もちょっとだけ体験できる。
本物に近くなった「きぼう」の実物大モデル。以前は、船内保管室は横に置かれていただけだった
船内実験室には自由に入ることができる。宇宙での実験を紹介したビデオも流れている
一番奥の天井に船内保管室との接合部(共通結合機構:CBM)が。見上げるとこんな感じ
残念ながら写真ではちょっと分からないが、船内保管室は「思ったよりも広い」印象だった
この新しい展示館の愛称を現在募集中。期間は8月31日までで、館内に投票用紙が用意されている。3つの候補の中から選ぶ形になっているが、「その他」の欄に自由に記入することも可能だ。
愛称の投票コーナー。中間状況も公表されるようだ
愛称の投票用紙。基本的には三択となっている
オープン時間(10:00~17:00)や休館日(基本的に年末年始のみ)などは従来と同じ。ガイドが案内してくれる一般見学ツアー(無料)もこれまでと同様に開催されるが、コースは展示室の代わりに展示館が入ったものになる。見学者は食堂の利用も可能。ただし、セキュリティ管理された敷地内に入るため、利用には申し込みが必要となる(平日のみ)。
近くには食べる場所があまりないので、食堂は便利。コンビニもある
展示館の近くには、飲食可能な休憩室も新設された
展示内容は随時更新される予定。また特別展示の第1弾として、「おかえりなさい「はやぶさ」特別展」が8月2日より6日まで開催される。展示内容は、相模原市立博物館や丸の内オアゾと同様に、前面ヒートシールド、背面ヒートシールド、その他カプセル関係物品となっている。
「ロケット輸送システム」ゾーンには歴代ロケットの模型
燃焼試験に使われたロケットエンジンの実機展示もある
「宇宙科学研究・月惑星探査」ゾーンには、「かぐや」の試験モデル
オープンにあわせて、「はやぶさ」の1/2モデルも展示される
「人工衛星による宇宙利用」のゾーン。通信衛星や放送衛星などが並ぶ
こちらの「きく8号」の試験モデルも新規展示となる