常にオンライン
インターネットアーカイブとの統合で常にオンラインを有効にする際は、以下のベストプラクティスに従ってください。
- インターネットアーカイブのIPアドレスからのリクエストを許可します。 オリジンサーバーはインターネットアーカイブのIPからのリクエストを受け取ります。インターネットアーカイブのIP範囲
207.241.224.0/20および208.70.24.0/21からのリクエストをブロックしていないことを確認してください。 - インターネットアーカイブはオリジンサーバーのキャッシュコントロールヘッダーを考慮しません。 インターネットアーカイブがサイトをクロールする際、キャッシュコントロールに関係なくクロールします。インターネットアーカイブはアセットをキャッシュするのではなく、アーカイブします。
- URIを変換するCloudflareの機能との潜在的な競合を考慮してください。 インターネットアーカイブとの統合で常にオンラインを使用すると、キャッシュルールやURIを変換する他のCloudflareの機能に問題が生じる可能性があります。特に、エッジで発生するリダイレクトがインターネットアーカイブのクローラーがターゲットURLをアーカイブしない原因となることがあります。オリジンキャッシュコントロールを有効にする前に、Cloudflareがデフォルトでリソースをキャッシュする方法や設定したキャッシュルールを確認し、これらの問題を回避できるようにしてください。問題が発生した場合は、常にオンラインを無効にしてください。
- WAFカスタムルールを介して既知のボットや確認済みのボットをブロックしないでください。 これらのボットリストのいずれかをブロックすると、インターネットアーカイブはクロールできなくなります。
常にオンラインを使用しないでください:
- APIトラフィック。
- アメリカ合衆国をブロックするIPアクセスルールまたはWAFカスタムルール。
- バイパスキャッシュキャッシュルール。常にオンラインはバイパスキャッシュキャッシュルールを無視し、常にオンラインのキャッシュアセットを提供します。
常にオンライン機能には制限があります:
- 常にオンラインは、最近追加されたサイトにはすぐにはアクティブになりません:
- DNSレコードの伝播には24〜72時間かかることがあります。
- 常にオンラインが最初にウェブサイトをクロールしていない。
- Cloudflareは、オリジンサーバーがオフラインの場合、ログインの背後にあるプライベートコンテンツを表示したり、フォームの送信(POST)を処理したりできません。
常にオンラインは、404、503、または500のようなHTTPレスポンスコードをトリガーしません。これにはデータベース接続エラーや内部サーバーエラーが含まれます。
-
ページがクロールされたかどうかはどうやって確認できますか?
- インターネットアーカイブ ↗にアクセスし、ページのURLを検索して、クロールされたかどうかを確認できます。
- また、インターネットアーカイブの可用性API ↗を通じて確認することもできます。
-
なぜページx、y、zはクロールされなかったのですか?
- Cloudflareはサイト上で最も人気のあるページをクロールするリクエストを行うため、ページが欠落する可能性があります。本当にページをアーカイブしたい場合は、インターネットアーカイブ ↗の保存ページにアクセスし、特定のページをクロールするように依頼できます。
-
クロールが機能するように許可リストに追加する必要があるIPアドレスは何ですか?
- IP範囲:
207.241.224.0/20および208.70.24.0/21。このIP範囲はインターネットアーカイブに属し、Cloudflareではないことに注意してください。クロールを行うのはインターネットアーカイブです。
- IP範囲:
-
オリジンはどのユーザーエージェントを期待すべきですか?
- 現在、インターネットアーカイブは次のユーザーエージェントを使用しています:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/605.1.15 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/605.1.15。
- 現在、インターネットアーカイブは次のユーザーエージェントを使用しています: