お知らせご迷惑をおかけしますが、メンテナンスのため以下の日時はサーバを停止いたします。 2017年7月6日(木)10:00~14:00(予定) | |||||||||||||||
|
|
■NINJAL-LWP for BCCWJ とは
NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日本語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。
国語研からはBCCWJ用のオンラインコンコーダンサとして中納言と少納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプロファイリングという手法を用いたコーパス検索ツールです。名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示できるのが最大の特長です。同じシステムを利用したツールに、筑波大学が構築した11億語のウェブコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するNINJAL-LWP for TWC(NLT)があります。

■使用しているデータ
NLB ver.1.30では、BCCWJのDVD版公開データ(2011)の文字ベースXMLの可変長データを使用しています。ただし、著作権上の理由から、出版サブコーパスの新聞(記号:PN, 約94万語)は含まれていません。以下の表は、各サブコーパスの媒体ごとの記号と語数を示しています。語数は、MeCab+IPA辞書でアノテーションした結果の数字です(空白・記号等もカウントしています)。
サブコーパス | 媒体 | 記号 | 語数(語) |
---|---|---|---|
出版 | 書籍 | PB | 29,331,243 |
雑誌 | PM | 4,626,162 | |
図書館 | 書籍 | LB | 31,491,513 |
特定目的 | ベストセラー | OB | 4,130,668 |
知恵袋 | OC | 11,329,919 | |
法律 | OL | 938,198 | |
国会会議録 | OM | 5,086,855 | |
広報紙 | OP | 4,108,480 | |
教科書 | OT | 1,041,844 | |
韻文 | OV | 232,508 | |
白書 | OW | 4,766,280 | |
ブログ | OY | 12,018,522 | |
総語数 | 109,102,192 |
■アノテーション
NLBでは、コロケーションや文法的振る舞いの情報を抽出するために、BCCWJのデータにアノテーションを付与した上で解析しています。アノテーションに使用している解析器・辞書は以下の通りです。
形態素解析 MeCab 0.99 + IPA辞書 2.7.0形態素解析用のIPA辞書は、代表表記の情報を含まないため、独自に拡張して代表表記に対応させています。
係り受け解析 CaboCha 0.64
■使い方
コンコーダンサでは検索語句を入力すると、その結果がコンコーダンスラインとして返ってきます。NLBでは、検索語句を入力する代わりに、まず調べたい語(NLBではこれを「見出し語」と呼びます)を選びます。見出し語として選べるのは、名詞、動詞、形容詞、連体詞、副詞の5種類の内容語です。

ここでは、「言葉」という名詞について調べてみます。まず画面上の入力ボックスに「言葉」または「ことば」(カタカナも可)を入力して、[絞り込み]ボタンをクリックします。下のリストに「言葉」という見出し語が現れますのでそこをクリックします。

クリックすると、「言葉」の見出し語ウィンドウが開きます。ここでは、「言葉を」の後ろにどのような動詞が来るかを調べてみることにします。左側の文法パターンのパネルの[グループ別]を選ぶと、一番上に[> 助詞+動詞]グループがあります。このなかにある[言葉を…]というパターンをクリックします。

すると、中央のコロケーションパネルに[言葉を+動詞]のコロケーションが頻度順に表示されます。左側の用例パネルには、最も頻度の高い「言葉を…している」の用例が表示されます。
次に、特徴的なコロケーションを表示してみます。NLBでは、頻度順だけでなくMIスコアの順でも並べ替えることができます。MIスコアは統計指標の一つで、特徴的なコロケーションほど数値が高くなる傾向があります。ただし、低頻度のコロケーションの数値が過剰に高くなるため、低頻度のものを排除する必要があります。コロケーションパネルのヘッダーの[MI]をクリックしてから、パネル上で右クリックして[頻度5以上]を選びます。

すると、「言葉を発する」、「言葉を途切らせる」、「言葉を濁す」など、「言葉を」に続く特徴的な動詞が上位に現れます。

それぞれのコロケーションをクリックすると、右のパネルにその用例が表示されます。ここでは、12番目の「言葉を紡ぐ」をクリックしてみます。コーパスで使われている実際の用例を一つずつ確認することができます。

用例はセンテンス単位で表示されます。さらに前後の文脈を確認するときは、それぞれの用例の出典の部分をクリックします。

以下のような前後のセンテンスを表示するダイアログが開きます。

このように、NLBでは、検索ウィンドウでまず見出し語を選んで、見出し語ウィンドウ上で、文法パターン、コロケーション、用例を行き来しながら、その見出し語の振る舞いの全体像をつかむことができます。クリックだけで簡単に操作できますので、思考を途切らせることなくさまざまな表現を思いのままに調べることができます。
詳しい使い方については、操作説明書(PDFファイル、約3.5MB)をご覧ください。
■機能表現検索
語は、文を構成する基本単位であり、実質的な内容を表す内容語と統語的関係を表す機能語に大別することができます。日本語では、動詞、形容詞、名詞、副詞などが内容語に相当し、助詞、助動詞が機能語に相当します。しかし、日本語にはこれ以外に、「~なければならない」、「~たことがある」など、複数の語が組み合わさって機能語としての役割を果たす複合辞が数多く存在します。機能表現とは、統語的関係を表す機能語と複合辞を合わせた総称です。

NLBでは、これまで内容語の振る舞いが分かるプロファイリングを提供してきましたが、同時に、機能表現を検索するためのプロファイリングの手法の開発を進めています。
機能表現のプロファイリングがどのようなものなのか、具体的な例を挙げて説明してみましょう。「そのように感じる・そのように振る舞う」という意味をもつ機能表現「~がる」は、「知りたがる」のように動詞に後続する場合、「欲しがる」のようにイ形容詞に後続する場合、「いやがる」のようにナ形容詞に後続する場合の3つがあります。機能表現プロファイリングでは、まず「~がる」に接続する品詞から選びます。

ここでは、[動詞接続]をクリックしてみましょう。すると、中央のパターンパネルに、「動詞+がる」の前後の機能語も含めたパターンが表示されます。

さらに、パターンの一番上にある[~したがる]をクリックすると、用例パネルにその用例が表示されます。

機能表現プロファイリングでは、このように機能表現の振る舞いを簡単に調べることができます。このツールでは、初級レベルに相当する機能表現約80種類のプロファイリングを検索することができます。ただし、暫定版につき、検索できるのは図書館・書籍サブコーパス(約2933万語)に限られています。詳しい使い方については、以下のユーザガイドをご参照ください。
~間 |
~間に |
~後(で) |
~が |
~ができる |
~がほしい |
~から |
~だから |
~がる |
~くする |
~くなる |
~ことがある |
~ことができる |
~(さ)せてください |
~(さ)せてくれませんか |
~(さ)せてもらえませんか |
~し |
~たい |
~たことがある |
~ため(に) |
~たら |
~たらいい |
~たらどう(ですか) |
~たり~たり |
~たり~たりする |
~て |
~で |
~ていく |
~ていただけませんか |
~てから |
~てください |
~てくださいませんか |
~てくる |
~てくれ |
~てくれませんか |
~ではいけない・~じゃいけない |
~てもいい |
~でもいい |
~てもかまわない |
~でもかまわない |
~てもらえませんか |
~といい |
~とき |
どちらが |
どちらのほうが |
~な |
~ないことがある |
~ないでください |
~ないでくれ |
~ないでくれませんか |
~ないほうがいい |
~ながら |
~なくて |
~なくてはならない・~なくちゃならない |
~なくてもいい |
~なくてもかまわない |
~なくなる |
~なければならない・~なきゃならない |
~なさい |
~に<移動動詞> |
~にくい |
~にする |
~になる |
~ので |
~のに |
~のほうが |
~ばいい |
~ほうがいい |
~前に |
~ましょう |
~ましょうか |
~ませんか |
~まで |
~までに |
~も~し |
~やすい |
~(よ)う |
~(よ)うか |
~ようになる |
~より(も) |
~(ら)れる |
~をください |
~をくれませんか |
この検索ツールは、① 科学研究費挑戦的萌芽研究「大規模コーパスに基づく日本語機能語の基礎研究と機能語検索ツールへの応用(課題番号:16K13228)」、② 科学研究基盤研究(B)「統語・意味解析情報タグ付きコーパス開発用アノテーション研究:複文を中心に(課題番号15H03210)」、③ 国立国語研究所機関拠点型共同研究プロジェクト「統語・意味解析コーパスの開発と言語研究」、④ 科学研究基盤研究(A)「準均衡超大規模日本語コーパスと高速検索ツールの開発(課題番号:18H03575)」の研究助成を受けて開発したものです。