解説サーバを熱障害から守れ! 2004/05/12 |
|
|
これまでコンピュータの消費電力と発熱の問題は、ノートPCや省スペース・デスクトップ、一部のブレード・サーバなど、本体が小型なものに限られてきた。特にバッテリ駆動が求められるノートPC向けには、消費電力を下げた(発熱量を抑えた)Pentium MやモバイルAMD Athlon 64といった、デスクトップPC向けとは異なるプロセッサがラインアップされるようになっている。一方で、ヒートパイプや冷却ファンなどを工夫することで、排熱量を増やし、プロセッサの発熱量の増加に対応する工夫も行われている。例えば、日立製作所が開発した「水冷システム」などもその1つだ(残念ながら2004年春モデルには、水冷システム採用機種がラインアップされていない)。
サーバでは、本体サイズに比較的余裕があることに加え、ある程度大きな稼働音がしても気にされないため、大型の冷却ファンを採用して常に十分な排熱量を確保してきた。これで多少消費電力が上がっても、設計上、それが問題になることは少なかった。本体サイズに制限のある1Uサイズや2Uサイズのラックマウント型サーバでも、高回転タイプの小型冷却ファンを複数個搭載することにより、十分な排熱を可能にしてきた。
しかしプロセッサ性能の向上に伴い、サーバにおいても発熱が問題になるようになってきた。そこで、ここではサーバ本体、サーバ・ラック、データセンターの3つの領域でどのような熱の問題が発生し、対策として取りうる方策にはどのようなものがあるのかを解説しよう。
発熱量が増えるプロセッサ
1999年3月にリリースされたPentium III Xeon-500MHzのTDP(Thermal Design Power:熱設計電力)は44.0Wなのに対し、2003年10月にリリースされたIntel Xeon-3.2GHzは92.0Wと2倍以上になっている。プロセッサにおける消費電力は、ほとんどが熱に変換される。つまり消費電力が高いということは、それだけ発熱量が多いことになる。
現在の高クロック周波数のプロセッサでは、消費電力は動作周波数×(動作電圧)2にほぼ比例する。Pentium III Xeon-500MHzとIntel Xeon-3.2GHzを比較した場合、動作周波数が6.4倍に向上していながら、消費電力が2倍しか向上していないのは、製造プロセスが進むに従って、動作電圧を下げることが可能だったからだ。動作周波数が上がっても、2乗に比例する動作電圧が下がれば、消費電力を下げることができる。単純に比例する動作周波数よりも、動作電圧の低下は効果的なのだ。
ところが、プロセッサの半導体製造プロセスが0.13μmプロセス以下になってから、これまでのように動作電圧を下げることが難しくなってきている。単に動作電圧を低くしてしまうと、プロセッサの動作周波数向上が困難になる上、トランジスタの動作が不安定になるという問題が起きるためだ。
また製造プロセスの微細化に伴い、リーク電流(回路がオフの状態にもかかわらず流れる電流)が増加するという問題も起きる。トランジスタのスレショルド電圧(ソース−ドレイン間に電流が流れるようになるオン状態を作り出す、ゲート電極にかける電圧値)を単に下げると、オフ状態にもかかわらず流れる電流が増加してしまう(「頭脳放談:第9回 銅配線にまつわるエトセトラ」参照のこと)。すでにトランジスタのスレショルド電圧は十分低くなってきており、微細化に沿った低電圧化が難しくなっている。前述のように動作周波数の向上は、比例して消費電力を上昇させてしまう。このように動作電圧が下げられないと、今後、プロセッサの消費電力は上がる一方となる。
さらに微細化が進んだ結果、プロセッサを構成するトランジスタの絶縁膜の厚さが原子数個分という薄さになってしまっているのも問題になっている。このような薄さになると、「量子トンネル効果」によって、本来は電流を通さないはずの絶縁膜が電流を流してしまうという現象が起きる。このようなリーク電流が増大すると、その結果、さらに消費電力が増えることになる。
消費電力の増加、つまり発熱量の増大を抑えないと、自らの熱によってプロセッサが溶解してしまう危険性もある。ベンダはプロセッサのパッケージの工夫や冷却ファンにより、放熱量を増やし、発熱による温度上昇を抑えているものの、それもそろそろ限界に近付きつつある。
プロセッサの発熱量を抑える技術
このような消費電力ならびに発熱の問題を解消するには、新しい絶縁体素材などを開発し、リーク電流を抑制する必要がある。リーク電流が抑えられれば、結果的に消費電力(発熱)を抑えることができる。またスレショルド電圧を下げることも可能になり、動作周波数を上げても、消費電力を下げられる可能性が生まれる。
ノートPCで採用されている低消費電力技術をサーバ向けプロセッサにも導入するという動きがある。Itaniumプロセッサ・ファミリでの導入が検討されているFoxton(フォックストン)テクノロジなどである。Foxtonテクノロジでは、消費電力が低い(発熱が少ない)間は定格クロック(ベースライン・クロック)より高い動作周波数で駆動することで性能向上を図り、逆に発熱が増えたら動作周波数を下げて消費電力を抑えるという仕組みだ。これにより、発熱の問題はある程度回避可能だが、プロセッサ負荷が高くなると発熱が増えるため、逆に性能が落ちてしまうという問題も生じる。
このように発熱の問題は、プロセッサの性能向上に対する大きな壁となりつつある。今後は、動作周波数を上げずに性能の向上を図らなければ、この問題は解決しない。実際、報道によればインテルは、開発コード名「Tejas(テージャス)」「Jayhawk(ジェイホーク)」で呼ばれている90nmプロセスで製造される予定であったプロセッサの計画を、消費電力と発熱量の問題からキャンセルしたという。代わりに2006年にリリースを予定していたマルチコアを採用したプロセッサを前倒しで投入する計画に変更したといわれている。このようにインテルは、マルチコア化により、動作周波数をそれほど上げずに性能を向上させる方向に急速に動いている。
プロセッサだけではない発熱の問題
さて、ここまでプロセッサについて見てきたが、同様のことは、チップセットやメモリ、グラフィックス・チップ、ネットワーク・チップなどにも当てはまる。またハードディスクや電源ユニットも、サーバ本体における大きな熱源となっている。これらサーバに搭載されるデバイスからの熱は、現在のところサーバ内に搭載されている冷却ファンによって排熱することで、デバイスの熱暴走や故障などを防止している。しかし、発熱量がこれ以上増えると、冷却ファンだけでは十分に排熱できなくなる恐れもある。
チップ類は、プロセッサと同様、動作電圧を下げたり、低い動作周波数でも性能向上が可能となるような工夫をしたりする必要があるだろう。またハードディスクは、SANなどを利用してサーバ本体と分離し、サーバ本体の熱を低減することも対策としては有効だ。電源ユニットは、AC−DC変換時に発生する熱を防ぐため、現在の交流(AC)電源から直流(DC)電源に移行する必要が生じる可能性もある。
特にブレード・サーバや1Uサイズのラックマウント型サーバといった高密度サーバを導入する場合、1台1台の発熱量はそれほど高くなくても、ラックやデータセンター単位では処理しきれない発熱量となることもある。これまであまり気にしてこなかった発熱量が、今後のサーバ選びにおける重要な要素の1つのなる可能性もある。
サーバ・ラック単位での冷却が重要
サーバ自体の発熱量が増えると、それをまとめたサーバ・ラックの単位でも必然的に発熱量が増えることになる。
セキュリティを考慮すると、サーバ・ラックを完全に囲いたいところだが、囲ってしまうとラックに熱がこもることになる。ラックの前面を囲うような場合は、ラックの上部や側面などに冷却ファンが取り付け可能なものを選ぶとよい。サーバ・ラック内に空気を対流させ、熱がこもるのを防ぐことが可能だ。
また、エーピーシー・ジャパンのサーバ・ラック向け空調機器 「NetworkAIR RM Air Distribution Unit(以下、Air Distribution Unit)」のような製品を活用するのもよいだろう(エーピーシー・ジャパンの「Air Distribution Unitの製品紹介ページ」)。Air Distribution Unitは、サーバ・ラックの一番下に搭載し、冷気をラック前面に吹き上げることで、ラック内の空気の流れを調整するというものだ。これにより、ラック内に冷気の対流が起こり、効率的にサーバの排熱を可能にするという。ただし、冷却ファンの取り付け位置は、データセンターの空気の流れを考慮して決めたい(後述)。
エーピーシー・ジャパンのNetworkAIR RM Air Distribution Unit |
サーバ・ラックの一番下に設置し、下からラック前面に対して冷気を吹き上げる空調機器である。これにより、データセンターのフリーアクセス・フロアを流れる冷気を効率よくサーバに導くことが可能だとしている。 |
ラックマウント型サーバのサーバ・ラックへの搭載方法にも注意が必要だ。特にサーバ本体の上面や下面に空気の取り入れ口があるような場合、サーバ・ラックへの取り付け方に気を付けたい。隙間を空けずにサーバをサーバ・ラックに搭載してしまうと、空気の取り入れ口がふさがれ、空気がサーバ内に流れなくなってしまう。その結果、サーバ内の温度が上昇し、熱暴走や故障の原因になってしまう危険性がある。このようなサーバでは、最低でも0.5U分(2.2cm)、できれば1U以上の隙間を空けて設置すべきだ。このように空気の取り入れ口の位置によっては、1Uサイズであっても、結果的には2Uサイズのサーバと同じことになってしまう。隙間なくラックに搭載したいのならば、本体前面から後面に空気が流れるような設計になっているサーバを選んだ方がよい。
このほか、UPS電源やディスプレイなども発熱源となるので注意が必要だ。ディスプレイは、CRTよりも液晶ディスプレイの方が低消費電力であり、発熱量も少ない。またUPS電源は、サーバ・ラック内に搭載せずに、データセンターが用意する電源(通常、UPS機能を持つ)を2系統用いるなどした方がよい。社内に設置するような場合は、UPS電源の発熱量も調べて、ラックの排熱量に加えることが重要だ。
データセンターでは空調による冷気の流れをチェック
データセンターでは、多くのサーバが設置されることになるため、さらにトータルな発熱量が増えることになる。一般にデータセンターでは、セキュリティなどの理由により窓のない密閉された部屋が用いられる。企業内にデータセンターを設置する場合でも、密閉した部屋やガラスなどで仕切った部屋を用意し、そこにサーバ・ラックを設置することが多い。
このような密閉した空間に発熱するコンピュータを設置するには空調が不可欠である。そこで、冷却装置を設置し、空気を効率よく対流させることで、部屋全体の温度上昇を防ぐ。前述のようにサーバ単体の発熱量が増えてきていることから、データセンターの冷却能力が間に合わなくなるケースも出てきている。またサーバ・ラックや冷却装置の設置方法によっては、ラック間に熱溜まりができてしまい、特定のサーバ・ラックの故障率が上昇するといったことも起きる可能性がある。
こうした不具合の発生を防止するには、空気を循環させ、サーバ・ラックに効率よく冷気を行き渡らせることが重要だ。日本HPが提供しているホワイトペーパー「高密度コンピューティングのためのデータセンターの最適化」によれば、フリーアクセス・フロアの下側に給気用のダクトを設置し、そこを通して冷却した空気を各サーバ・ラックに導き、その一方で天井に排気用のダクトを設け、暖められた空気を強制的に吸気することで、空気を効率よく循環させることが可能だとしている。このような方法でも十分な冷却が行えない場合は、天井にも給気用ダクトを設け、サーバ・ラックの上側からも冷却した空気を導く必要があると述べている。なおサーバによって暖められた空気は、一般に背面側の通路に集中する。そのため、この通路側の上側に排気用ダクトを設けないと、効率よく空気が循環されない。
データセンターを設計する場合は、ラックの設置や配線の効率だけでなく、冷却能力と空気の循環についても十分に検討したい。一方、外部のデータセンターにサーバを設置(ホスティング)する場合は、冷気の流れをチェックし、十分に冷却される位置や、発熱量の少なそうなサーバ・ラックの隣を選択しよう。
■
これまでサーバは、性能や拡張性、本体サイズ、価格などを中心に選択されてきた。しかし、これからは発熱量や排熱能力なども考慮に入れなければならなくなるだろう。
関連記事 | |
第9回 銅配線にまつわるエトセトラ |
関連リンク | |
Air Distribution Unitの製品紹介ページ | |
高密度コンピューティングのためのデータセンターの最適化 |
「System Insiderの解説」 |
- Intelと互換プロセッサとの戦いの歴史を振り返る (2017/6/28)
Intelのx86が誕生して約40年たつという。x86プロセッサは、互換プロセッサとの戦いでもあった。その歴史を簡単に振り返ってみよう - 第204回 人工知能がFPGAに恋する理由 (2017/5/25)
最近、人工知能(AI)のアクセラレータとしてFPGAを活用する動きがある。なぜCPUやGPUに加えて、FPGAが人工知能に活用されるのだろうか。その理由は? - IoT実用化への号砲は鳴った (2017/4/27)
スタートの号砲が鳴ったようだ。多くのベンダーからIoTを使った実証実験の発表が相次いでいる。あと半年もすれば、実用化へのゴールも見えてくるのだろうか? - スパコンの新しい潮流は人工知能にあり? (2017/3/29)
スパコン関連の発表が続いている。多くが「人工知能」をターゲットにしているようだ。人工知能向けのスパコンとはどのようなものなのか、最近の発表から見ていこう
|
|