- - PR -
Kernel 2.4 系と IO-APIC について
投稿者 | 投稿内容 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
投稿日時: 2007-03-16 15:07
本日、OS再起動時に以下のメッセージが画面に表示されてKernelPanicを起こしておりました。
【画面URL】http://heartland.geocities.jp/ririanchuel/image/kernel_panic.gif 【テキストベース】 ============================================================================ Calibrting delay loop... 6645,35 BogoMIPS CPU: Trace cache: 12K uops<6>CPU: L2 cache: 1024K CPU: Physical Processor ID: 7 Intel machine check reporting enabled on CPU#7. CPU7: Intel(R) Xeon(TM) MP CPU 3.33GHz stepping 01 Total of 8 processors activated (48191.89 BogoMIPS). ENABLING IO-APIC IRQs Setting 8 in the phys_id_present_map ...changing IO-APIC physical APIC ID to 8 ... ok. Setting 9 in the phys_id_present_map ...changing IO-APIC physical APIC ID to 9 ... ok. Setting 10 in the phys_id_present_map ...changing IO-APIC physical APIC ID to 10 ... ok. Setting 11 in the phys_id_present_map ...changing IO-APIC physical APIC ID to 11 ... ok. Setting 12 in the phys_id_present_map ...changing IO-APIC physical APIC ID to 12 ... ok. ..TIMER: vector=0x31 pin1=-1 pin2=8 ...trying to set up timer (IRQ0) through the 8259A ... ..... (found pin 0) ... failed. ...trying to set up timer as Virtural Wire IRQ... failed. ...trying to set up timer as ExtINT IRQ... failed :(. Kernel panic: IO-APIC * timer doesn't work! pester mingo@redhat.com ============================================================================ 画面に「IO-APIC」という文字が表示されておりましたので その言葉をキーワードに検索しましたところ 以下の情報を参照することが出来ました。 【kernel-2.4.19-8m IO-APIC不具合について】 ・http://www.momonga-linux.org/archive/Momonga-devel.ja/msg00868.html 【SMP カーネル使用時の APIC に関する障害】 ・http://www.turbolinux.co.jp/support/document/knowledge/480.html 現在、こちらが利用しているKernelのversionなのですが 2.4.21-32.0.1.ELsmp となっています。 2.4系についてのIO-APIC関連の記述をGoogleで検索しましたが 2.4.21に関する(ピンポイント的な)記述は無く、また対処方法等の記述も無い?見つけれない?結果になりました。 そこで皆様に何らかの情報等をお持ちでないかお尋ねしたいと思います。 【サーバ環境】 サーバ機:Fujitsu PRIMERGY RX600 S2 OS:Redhat Enterprise Linux AS V.3 Kernel:2.4.21-32.0.1.ELsmp そのほか参照ページ: 【kernel-2.4.18-0vl24 で起動できず】(下位レス含む) ・http://his.luky.org/ML/vine-users.5/msg02694.html 【テキスト】 ・http://www.linux.or.jp/JF/JFdocs/kernel-docs-2.2/IO-APIC.txt 【拡張プログラマブル割り込みコントローラー (APIC) 】 ・http://www-06.ibm.com/jp/developerworks/linux/001215/j_kernel1.html 後、関係ないと思われますが 以下のメッセージが毎日起動時に出力されています。 (※RedhatSVR01 はホスト名) Mar 12 03:57:28 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 12 03:57:28 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 12 03:57:28 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 12 03:58:00 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 12 03:58:00 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 12 03:58:00 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 13 03:58:23 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 13 03:58:23 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 13 03:58:23 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 13 03:58:53 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 13 03:58:53 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 13 03:58:53 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 14 03:58:24 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 14 03:58:24 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 14 03:58:24 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 14 03:58:54 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 14 03:58:54 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 14 03:58:54 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 15 03:58:23 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 15 03:58:23 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 15 03:58:23 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 15 03:58:52 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 15 03:58:52 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 15 03:58:52 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 16 08:20:24 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 16 08:20:24 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 16 08:20:24 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 Mar 16 08:20:54 RedhatSVR01 sysctl: kernel.mem_nmi_panic = 1 Mar 16 08:20:54 RedhatSVR01 sysctl: kernel.unknown_nmi_panic = 1 Mar 16 08:20:54 RedhatSVR01 sysctl: kernel.panic_on_oops = 1 【追伸】 足りない情報等がありましたら、レスを付けて頂ければ幸いです。 | ||||||||||||||||
|
投稿日時: 2007-03-17 19:51
カーネルの不具合か、そうでなければハードウェア不良でしょう。
こういうところでたずねる話じゃなくて、ディストリビュータなり、 保守契約している相手なりに投げる話であ。 カーネルのオプションにnoapicを付ければ起動するかもしれませんが、 たとえそれで起動したとしても一時的な回避措置としてはともかく、 恒久的にはおすすめしません。 | ||||||||||||||||
|
投稿日時: 2007-03-18 01:16
カーネルを2.6系にあげられないのですか?
そうすれば動くとか? | ||||||||||||||||
|
投稿日時: 2007-03-18 13:51
こんにちわ.
基本的にはぽんす様の意見に同意ですが, 「本日」と書かれているということは「これまで動いていて突然不具合が発生した」 というお話なのでしょうか? 「install した直後に発生した」のであれば 「然るべきところに訊くべき」と思いますが, 運用していて「何もした覚えがないのに」そのようになったのであれば 「何もした覚えがない」点で再考が必要かと. 何もしないである日突然環境に変異が生じたとしたら それは Hardware に変化が生じたからでしょうから, 故障とか「何もしていない」つもりで何かしてしまっているのかもしれません. あるいは kernel を update してしまっていたとか, そんなことはありませんか? 少なくとも運用段階で kernel を 2.6 に upgrade するのはお奨めしません. | ||||||||||||||||
|
投稿日時: 2007-03-19 10:05
皆様、レスありがとうございます。
>>ぽんす様 >こういうところでたずねる話じゃなくて、ディストリビュータなり、 >保守契約している相手なりに投げる話であ。 もちろん、保守契約へのサポートは依頼しております。 こちらとしては、同様の現象で何か情報をお持ちでないかお聞きしたい所です。 >カーネルのオプションにnoapicを付ければ起動するかもしれませんが サポートからの返答次第なのですが、それも考えております。 >>たお様 2.6系へのアップグレードは控えているところです。 >>kaz様 >あるいは kernel を update してしまっていたとか, >そんなことはありませんか? Kernelのバージョンアップは行っておりません。 >「本日」と書かれているということは「これまで動いていて突然不具合が発生した」 >というお話なのでしょうか? その通りです。 >「install した直後に発生した」のであれば >「然るべきところに訊くべき」と思いますが, 運用開始は昨年10月ぐらいからですので、Install直後、初期不良ではないかと思っております。 >運用していて「何もした覚えがないのに」そのようになったのであれば >「何もした覚えがない」点で再考が必要かと. >何もしないである日突然環境に変異が生じたとしたら >それは Hardware に変化が生じたからでしょうから, >故障とか「何もしていない」つもりで何かしてしまっているのかもしれません. 変更履歴等をあさっておりますが、ここ数ヶ月の間に変更されたことがないようです。 Hardware障害と思っておりますが、現段階でのCE連絡によると 「ハード的には問題が無い」とのことです。 (※ハード系のエラーログが出ていないという観点から回答を貰っております) 現在、数回のRebootを行い、様子を見ていますが特に問題が起こることなく正常に動作しているように見えます。 ログ等にもエラーが出力されている様子はありません。 ・・・サポートの回答待ちとなっています。 >少なくとも運用段階で kernel を 2.6 に upgrade するのはお奨めしません. 私もそう思っております。 たお様からアップグレードの話が上がっておりますが、2.4⇒2.6は正直怖いところがあります。 現状はこのままの状態で原因究明を進めたい、または解決を行いたいところです。 (・・・まぁ、PMはKernelを上げろと吼えていますがーー;) | ||||||||||||||||
|
投稿日時: 2007-03-19 10:45
おはようございます.
ここと
ここは矛盾していませんか? 「直後」とありながら「数ヶ月間は動いていた」のであれば 初期不良であるとは考えにくいと思いますが?
つまり「そのときにだけ発生した error」であって, 繰り返し起きているわけではないのでしょうか? ※起動時の error messages はともかく.
2.6 への upgrade ではなく, RHEL3 の最新の update packages へ「上げろ」という意味では? | ||||||||||||||||
|
投稿日時: 2007-03-19 12:56
>>kaz様
>ここは矛盾していませんか? >「直後」とありながら「数ヶ月間は動いていた」のであれば >初期不良であるとは考えにくいと思いますが? 誤)運用開始は昨年10月ぐらいからですので、Install直後、初期不良ではないかと思っております。 正)運用開始は昨年10月ぐらいからですので、初期不良では無いと思います。 大変申し訳ありません^^; >つまり「そのときにだけ発生した error」であって, >繰り返し起きているわけではないのでしょうか? その通りです。 >2.6 への upgrade ではなく, >RHEL3 の最新の update packages へ「上げろ」という意味では? まぁ、あくまで台詞からの推察なので^^; 「Kernelを上げてください」とのことなので、おそらく2.4系の最新にしてくれという意味なのかなと思ってます。 他、update packages も含めているかどうかはもちろん聞くのですが。 | ||||||||||||||||
|
投稿日時: 2007-03-19 21:27
初期化の部分のコードがまずくて、タイミング問題で「ときどき失敗する」 という状態になっている可能性もあります。 数回に一回とか数十回に一回の割合で失敗する、という不具合も デバイスまわりでは珍しくありません。 ある日を境に常に失敗するようになった、というのであれば故障でしょうけれど。 |