フィックスされたらしいJUNOSにアップデートして1週間ほど経過監視しましたが、何とかなったようです。
http://www.juniper.net/techpubs/en_US/junos12.1/information-products/topic-collections/release-notes/12.1/index.html
Fetching ppX interface statistics leaks in pfestat_table leading to “pfestat_req_add: pfestat table out of ids” error logs. When in this state it is NOT possible to fetch any interface statistics. To recover from this issue,reload the Routing Engine. Products affected by this are non-MX products which offer PPPoE services. [PR/751366: This issue has been resolved.]
ということで、12.1R3.5がフィックスされたJUNOSバージョンなので、アップデートして復旧。
とはいえ、未だにJUNOSはバグだらけ、特に12.x台は酷いようですので覚悟しとかないと。
=======================================================================================
12.1R3.5にアップデート前は11R4.4でしたが、下記のようにCPU使用率が100%使用中とかの
事象(10/12 13:50~)がありました。
どうやらhttpサービスがCPUを食い潰してたようですが、コマンドを打つもプロンプトが
返ってこなくなったりしたので、面倒くさくなって機器を再起動、復旧させました。
なお、相変わらずシスログには何も残ってませんでした・・・。
プロンプトが返ってくるのを待ってたらそのまま寝てしまった・・・・
状況から察すると下記バグに該当してるような気がします。EXシリーズ限定の筈なんですが。
http://www.juniper.net/techpubs/en_US/junos11.4/information-products/topic-collections/release-notes/11.4/index.html
When a large number of inbound HTTP connections are established over an extended period of time, the HTTP process (httpd) might become trapped in a loop, resulting in high CPU utilization. The CPU load continues even after the stream of connection attempts is terminated. To reduce the CPU load, you must kill the process from the shell. Two workarounds are to disable the J-Web interface or to allow access to the J-Web interface only from trusted networks. Alternatively, apply a policer at the edge or on the control plane (lo0) to rate-limit inbound connections to TCP port 80. Note that the typical side effects of applying rate limiting to services (for example, an increased risk of successful DoS attacks) also apply to inbound J-Web interface connections, so be careful before making changes to control plane protection firewall filters. See RFC 6192 for guidance on protecting the router’s control plane. [PR/693434: This issue has been resolved.]
12.1にアップデートした後なんで、思いっきり斜め読みで解釈すると
当方のSRXの設定では、PP0.0のグローバルIPアドレスをlo0.0にunnumbered-addressしてるんですが
lo0へのhttp接続数が多すぎてループしてしまったのかなと。ようわからん。
上記のように11.4R5.5ではフィックスされてるみたいなんで、誰か試してください。