日本語文章解析ツール
茶碗 ver 1.0 β文章を構成する要素に分解し、その出現頻度をカウントします。結果はMS-Accessのデータベースとして記録され、あとで確認・編集することも可能です。 解析エンジンには、日本語形態素分析システムとして有名な”茶筌 version 2.0 for Windows”を利用しています。
* このヘルプには本ソフトウェアについての重要な事項を記載しています。使用前に必ずお読みください。
はじめに:
本プログラムを何に利用するかは、利用者のアイデア次第です。例えば、ある作家が小説で多用する語句の一覧を作るとか、また、ある文書中の出現頻度の高い語句がその文書のキーワードであると仮定した場合、キーワード抽出を自動化できることになります。
”茶筌”にはWindows用のインターフェースである「WinCha」が同梱されていますが、”茶筌”の解析結果をいかに再利用するかを目的に、自分自身が使いやすいと思うプログラムを作ってみました。
本プログラムを利用するには、予め”茶筌 version
2.0 for Windows”をインストールしてある必要があります。”茶筌”は以下のサイトでダウンロードすることができます。”茶筌”のインストール方法などの情報も得られるでしょう。
日本語形態素解析システム 茶筌 開発部のページ http://cl.aist-nara.ac.jp/lab/nlt/chasen/
特徴(仕様):
・日本語文書を要素に分解し、その要素の出現数をカウントする。また、”読み”の文字数を数える(*注1)。
・要素ごとに品詞、活用、読み(平仮名)、読みの文字数、出現数をデータベースへ登録、リストビューで表示。ビューは品詞別にフィルタリングも可能。
(*注1)読み仮名のこと。この文字数には以下の小文字仮名文字はカウントに入れていません。”ぁぃぅぇぉゃゅょゎ”。”っ”だけは数に入れています。なぜこんなことをしているかというと、七五調にして音数がおかしくならないようにしたかったため。
動作環境:
WindowsNT4.0、Windows95/98にて動作確認を行っています。データベースアクセスにDAO(Data
Access Object)を使用していますので、DAOのDLLが必要になります。VC++をご使用の方はインストール時にデータベースコンポーネントをセットアップしていれば、または、MS-Office97
Proをインストールされていれば(Access97をインストール)、既にインストールされていると思います。
DLLの場所は、\program files\common files\microsoft shared\dao に、dao350.dllとか、dao360.dllという名前であるはずです。
また、MFCを使用していますので、最新のmfc42.dll(バージョンは、6.0以降)も必要です。
基本操作編:
0. 起動。Chawan.exeを起動すると、どのテーブルを開くかを聞かれます。インストール直後は空の”wordTbl”というテーブルだけが登録されていますので、リストボックスからそれを選択してください。別名のテーブルを作成したい場合は、このボックスに新しいテーブル名を入力してください。空のテーブルが追加されます。
1. ”表示”メニュー:
1-1. 解析:
”文書解析”を選択すると、「文書解析」ダイアログが表示されます。解析プログラム、解析したい文書や結果を出力するテーブルなどを設定します。
・外部プログラム: ”茶筌”プログラム(chasen.exe)のある場所を選択します。
・入力ファイル: 解析したい文書の場所(ファイル名)を選択します。
解析可能な文書はテキストファイルのみです。
・出力ファイル: ”茶筌”が一時的に出力するファイル名を選択します。ファイル名は存在しないファイルでもかまいません。
・テーブル: 解析結果を登録するテーブルを選択します。
「文書解析」ボタン: 文書解析を開始します。
「Clear Tbl」ボタン: 指定したテーブルの中身をクリアします。
1-2. ”最新情報に表示”:
解析後に、更新されたテーブルの情報を表示しなおしたり、特定の品詞のみを表示したいときに実行します。
必ず「フィルタ」ダイアログが表示されます。最初はすべての品詞にチェックが付いています。この場合は、すべてのレコードを表示します。「選択解除」ボタンをクリックすると、すべてのチェックが解除されますので、表示したい品詞のみをチェックすれば、フィルタリングが可能となります。
2. ”ファイル”メニュー:
2-1.
テーブルを閉じて開く: 現在開いているテーブルを閉じ、別のテーブルを開きます。
2-2.
テーブルの削除: 指定したテーブルをデータベースから削除します。
2-3. ファイルへ書き出し: IME辞書としてインポート可能な形式に出力します。その出力フォーマットは以下のとおり。
[読み] [語句] [品詞]
(例) さくら 桜 名詞
その他の操作:
1. ”Help”メニュー:
1-1. ”バージョン情報”: バージョン情報が表示されます。作者(私)へ連絡をとりたい場合は、画面の”e-mail”の文字列をクリックしてください。メールソフトが起動します。また、その他Chawanの最新情報を知りたい場合、画面の”URL”をクリックしてください。私のホームページへアクセスします。”OK”ボタンで消えます。
1-2. ”ヘルプ”メニュー: このヘルプファイルが表示されます。
”茶筌”の設定ファイルについて:
形態素解析処理は”茶筌”システムが行います。従って、”茶筌”の結果出力形式をChawanに適合するように、環境設定をお願いします。chawanから「文書解析」を実行すると、”茶筌”プログラムがバックグラウンドで起動します。”茶筌”は起動時に出力フォーマットを設定した設定ファイル(chasensrc)を読み込みます。この設定ファイルは”茶筌”に付属のGUIプログラム”WinCha”で編集するか、直接エディタなどで編集します。
直接、エディタで編集する場合は、行の最後に以下のように追加してください。もし、”(出力フォーマット
〜”の行の先頭に”;”(セミコロン)が付いていない行があれば、先頭に”;”を付けておいてください。(ファイル
chasensrc の記述例を\doc フォルダに添付しました)
(出力フォーマット "%m\t%y1 \t%U(%P-)\t%T \t%F \n")
アンインストール:
\chasenフォルダをまるごと削除してください。
その他、追加情報:
一度、私めのホームページにアクセスしてみてください。なんらかの情報が得られるかも知れません。また、バグ報告や要望などありましたらメールでご連絡ください。
・「著作権」について
・本プログラムは、すべての権利を竹内雄治が所有します。
・「免責」
・本プログラムを動作させて被害を被った場合等は一切の保証は致しません。
・「転載」について
転載は原則として自由です。その場合は、MAILをお願いします。コピーなどの配布も自由です。
* 「茶碗 - Chawan」 は”茶筌”にあやかって勝手に命名させてもらいました。
最終更新日: 2000.03.03