WebSphere® Portal のセキュリティー・スキャンの仕組み

サイト内を移動するために、Web クローラーは固有のページを指す特定の URL を識別できる必要があります。WebSphere® Portal URL は、サーバー側の情報を使用してエンコードされたナビゲーション状態情報を含むため、自動クローリングに独自の状態をもたらします。

同じナビゲーション状態から同じ URL が生成されるわけではないため、難しい問題が生じます。WebSphere® Portal URL は、このようにエンコードされた動的な性質を備えているため、従来の Web クローラーの URL 識別プロセスは機能せず、スキャンがいつまでも終わらない可能性があります。同じ理由から、探査フェーズ中にログアウト・リンクを検出することができないため、スキャンが何度も繰り返してセッションの外部に出る可能性があります。

WebSphere® Portal サイトをスキャンする場合には、Web クローラーによって探査されるページの名前などのスキャン・データをレポートにどのように表示するのかを決めることも、難しい問題です。従来型の Web サイトでは、Web クローラーは多くの場合 URL をページ名として使用します。これは、URL が、人間が読める形式でページを固有に識別しているためです。WebSphere® Portal URL はエンコードされているため、URL を見てページを識別することは困難です。

スキャンでは、WebSphere® Portal によって提供される REST サービスを使用してナビゲーション状態をデコードし、この状態を使用してアクセスした URL を識別します。スキャンは、エンコードされた WebSphere® Portal URL をデコード Web サービスに送信します。デコード Web サービスは、デコードされたナビゲーション状態を返します。

注: バージョン 6.0 以降の WebSphere® Portal がサポートされていますが、バージョン 6.1 の方がより多くのページをスキャンします。また、バージョン 6.1 以降では、分かりやすい URL 名が「ページ」レポートに表示されます。