ソフト・エラー (soft error)
メモリ・チップであるDRAMにおいて、宇宙線の衝突といった要因により、メモリ・セルに記録されている情報が消失してしまう(書き換わってしまう)エラーのこと。
DRAMの内部には、電荷量によって1bit分の情報を蓄える「メモリ・セル」が集積されている。そのメモリ・セルは、一定量の電荷が蓄えられている状態とそうでない状態という2種類の状態で、2値(0/1)つまり1bit分の情報を表す。おおざっぱにいえば、DRAMに何かデータを書き込むと、対応するメモリ・セルの電荷量が変化することでデータを記憶する。一方、読み出し時にはメモリ・セルの電荷量の状態を調べることで、記憶されていたデータが分かることになる。
従って、DRAMに対する正常なオペレーション以外でメモリ・セルの電荷量が変動すると、それは情報の損失につながる。例えば、メモリ・セルの近辺で電気的な異常が生じると、それにつられてメモリ・セル内の電荷量が変動してしまうことがある。これがDRAMチップのソフト・エラーと呼ばれる現象だ。近年、製造プロセス技術の進化から、DRAMのメモリ・セル1つ分のサイズが非常に小さくなってきている。これは、同時に蓄えられる電荷量が少なくなっていることも意味する。そのため、以前に比べると非常に小さな電気的な異常であっても、データの書き換えが発生することになる。
現在のソフト・エラーの主な原因は、宇宙空間から大気圏を突き抜けて地上に降り注ぐ宇宙線がメモリ・チップに衝突することだ。あるメモリ・セルの近辺に宇宙線が衝突すると、そのときに発生するエネルギーによりセル内の電荷量が失われてしまうことがある。つまり、宇宙線によりDRAMに蓄えられた情報が書き換わってしまうわけだ。
サーバなど信頼性が重視されるコンピュータ・システムでは、ECC(Error-Correcting Code)などのエラー訂正機能をメモリ・サブシステムに組み込んで、ソフト・エラー対策を施している。ECCでは、一定長のデータにつき1bitまたは数bitのソフト・エラーが生じても、あらかじめ記録しておいた冗長コードなどを利用して、書き換わったbitを修復できる。これによりコンピュータは、ソフト・エラーが生じても情報を誤ることなく処理を継続できる。
このようにソフト・エラー自体は訂正可能であり、またエラーが発生したメモリ・セルも再利用が可能だ。つまり、メモリ・チップそのものに不具合があるわけではない。これに対し、メモリ・セルの欠損やメモリ・チップそのものの不良といった原因により、恒久的に正しいデータの読み書きができないエラーは、「ハード・エラー」と呼ばれる。
Copyright (C) 2000-2007 Digital Advantage Corp.