仙台,弁護士,小松亀一,法律事務所,宮城県,交通事故,債務整理,離婚,相続

旧TOPホーム > 桐・IT等 > 桐HPB1 >    

桐HPBによるweb上大量データ検索システム

平成18年 7月 3日:初稿
○私は、H17-03-06更新情報「web上データベースの時代」で次のように述べていました。
①仙台弁護士会で35年以上渡り発行を継続している会報情報があり、会報には毎月1回、日弁連、仙台弁護士会会務情報から弁護士有志のレジャー情報まで多様な記事が掲載され結構なデータ量になっており、貴重な情報も相当含まれていること、②そこで数年前から仙台弁護士会HPに会報データのwebアップ検索可能化を提言してきたけれども、会報の膨大な紙データをテキスト化することだけで30万円程度の予算しか計上してくれず結局過去10年分程度の会報記事のテキスト化しか出来ていないこと

○そこで桐師匠【多遊】さんにもテキスト化した会報データをご提供申し上げ、html化とwebアップ及び検索可能化システムの構築をお願いしたところ、桐の新たな可能性を探る面白いテーマであるとして、快くご了解いただき、平成6年から平成17年まで12年間分の全会報データについてテキストファイルから桐ファイルに読み込み、最終的に1641個のhtmlファイルを作成頂きました。僅かの時間で大量テキストファイルを桐に読み込み、数分間で1641個ものhtmlファイルに変換する作業は圧巻でした。

○更に【多遊】さんは、日本語全文検索システムであるNamazu(ナマズ)を組み込み、web上でのキーワードによる簡単検索も可能にしていただきました。Namazu(ナマズ)とは、Namazu projectの皆さんが開発を進めている高機能でフリーな日本語全文検索システムで、LinuxなどUNIX系のOSのほか、Windowsにも移植されて、Web Serverと連携してCGIとして動作させれば、日本語で全文検索が可能な仕組みが構築できるものです。

【多遊】さんにシステム設計いただき基本的に桐で作成している私のHPでの検索システムは、msearchを採用しています。msearchでの検索に必要なインデックスファイルの作成はmsearch用インデックス作成フォームを使用しています。当HPはまだ1072ファイルを対象とするもので量が少ないから良いのですが、仙台弁護士会会報は既に1641ファイルもあり、これからファイル数が次々に増加予定ですので、msearchでは処理スピードが遅れるとのことでNamazuを採用されました。

○インデックスファイル(index file〔←索引ファイル〕とは、ファイルの中から特定のデータを「速く」探し出すために,項目名とその項目がそのファイルの何番目のデータかを表わす,具体的にはデータの番号だけを格納した索引用のファイルのことを言うそうです(日外コンピュータ用語辞典第3版)が、このインデックスファイルの意味が未だ良く解っていません。

○検索システムには①検索のたびにフォルダ内を検索するシステムと②事前にインデックスを作成するタイプの2通りあり、①のよい点は、事前にインデックスを作成しない(手間がかからない)こと、とにかくWEBアップすれば次回から対象となることで、悪い点は、毎回フォルダ内を検索の為時間がかかり、サーバに負担がかかること、②のよい点は、検索時間が早い、検索ファイルのみ検索なので、正確でサーバに負担をかけないことで、悪い点は、事前にインデックスを作成しなくてはならず、更新しなければ、WEBアップしても検索対象とならなず、それだけ手間がかかるそうです。

Namazuのインデックスファイル作成はmsearchに比較すると合理的でデータが増えても検索速度が速いそうですが、その仕組み等は大変難しく、これを機会に少しずつ勉強する必要を感じているところです。
以上:1,515文字

タイトル
お名前
email
ご感想
ご確認 上記内容で送信する(要チェック
※大変恐縮ながら具体的事件のメール相談は実施しておりません。

 


旧TOPホーム > 桐・IT等 > 桐HPB1 > 桐HPBによるweb上大量データ検索システム