PDF全文検索システム-Googleカスタム検索を利用する

Googleの無償検索システムで自サイト内検索を実現するGoogleカスタム検索を利用してPDF全文検索を実現してみます。

Googleのカスタム検索とは何なのかを知るためには、Googleのヘルプを見るのが一番しっかりした情報になります。

Google Search Consoleを利用

まずはGoogle Search Consoleにサイト内検索を行いたいサイトを登録します。

サイトの所有権を証明するには、Search Console にサイトを追加し、手順に沿ってサイトを管理していることをご確認ください。

ウェブマスター ツールでのサイトの確認

DNSをいじるより、URL配下にファイルを置くなどの方が楽そうだったので、 URL プレフィックス を選択して続行しました。

Google Analyticsはすでに利用していたのですぐに所有権を自動確認できました。

インデックス登録

サイトのコンテンツをカスタム検索エンジンの検索結果に表示するには、コンテンツが Google のインデックスに含まれている必要があります。

検索結果に含めるページのインデックス登録

手っ取り早くサイトマップを作成して、サイトごとインデックス登録します。

Google XML Sitemaps

を利用して登録の元になるXMLを作成します。

あれれ、今回はエラーが出ました。

そういえば、インデックスしない設定にしていました。

インデックスしないようにするチェックを外し、もう一度sitemap.xmlを登録するもののやはりsearch consoleにはインデックスが登録されない状態。

そこで、Google Search Consoleを旧バージョンにし、robots.txtを確認すると、

全てDisallow(拒否)の状態です。

さきほど、 インデックスしないようにするチェックを外し ていたので最新のrobots.txtは、

URLはここ https://www.techlive.tokyo/robots.txt

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.techlive.tokyo/sitemap.xml

となっていましたので最新の状態では大丈夫なはず。

Google Search ConsoleのRobots.txtテスター画面より、送信ボタンを押し、

Googleに更新をリクエスト で「送信」すると、

無事sittemap.xmlの表記も出ています。

これで無事にサイトマップ登録されました。

インストールするだけで、sitemap.xmlが作成されるのでそれを読み込ませればいいのですが、残念ながらこのプラグインだとリンクしたPDFファイルはsitemapに入らないようです。

関連コンテンツ