■NINJAL-LWP for BCCWJ とは
NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日本語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。
国語研からはBCCWJ用のオンラインコンコーダンサとして中納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプロファイリングという手法を用いたコーパス検索ツールです。名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示できるのが最大の特長です。同じシステムを利用したツールに、筑波大学が構築した11億語のウェブコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するNINJAL-LWP for TWC(NLT)があります。
■使用しているデータ
NLB ver.1.30では、BCCWJのDVD版公開データ(2011)の文字ベースXMLの可変長データを使用しています。ただし、著作権上の理由から、出版サブコーパスの新聞(記号:PN, 約94万語)は含まれていません。以下の表は、各サブコーパスの媒体ごとの記号と語数を示しています。語数は、MeCab+IPA辞書でアノテーションした結果の数字です(空白・記号等もカウントしています)。
サブコーパス | 媒体 | 記号 | 語数(語) |
---|---|---|---|
出版 | 書籍 | PB | 29,331,243 |
雑誌 | PM | 4,626,162 | |
図書館 | 書籍 | LB | 31,491,513 |
特定目的 | ベストセラー | OB | 4,130,668 |
知恵袋 | OC | 11,329,919 | |
法律 | OL | 938,198 | |
国会会議録 | OM | 5,086,855 | |
広報紙 | OP | 4,108,480 | |
教科書 | OT | 1,041,844 | |
韻文 | OV | 232,508 | |
白書 | OW | 4,766,280 | |
ブログ | OY | 12,018,522 | |
総語数 | 109,102,192 |
■アノテーション
NLBでは、コロケーションや文法的振る舞いの情報を抽出するために、BCCWJのデータにアノテーションを付与した上で解析しています。アノテーションに使用している解析器・辞書は以下の通りです。
形態素解析 MeCab 0.99 + IPA辞書 2.7.0形態素解析用のIPA辞書は、代表表記の情報を含まないため、独自に拡張して代表表記に対応させています。
係り受け解析 CaboCha 0.64
■使い方
コンコーダンサでは検索語句を入力すると、その結果がコンコーダンスラインとして返ってきます。NLBでは、検索語句を入力する代わりに、まず調べたい語(NLBではこれを「見出し語」と呼びます)を選びます。見出し語として選べるのは、名詞、動詞、形容詞、連体詞、副詞の5種類の内容語です。
ここでは、「言葉」という名詞について調べてみます。まず画面上の入力ボックスに「言葉」または「ことば」(カタカナも可)を入力して、[絞り込み]ボタンをクリックします。下のリストに「言葉」という見出し語が現れますのでそこをクリックします。
クリックすると、「言葉」の見出し語ウィンドウが開きます。ここでは、「言葉を」の後ろにどのような動詞が来るかを調べてみることにします。左側の文法パターンのパネルの[グループ別]を選ぶと、一番上に[> 助詞+動詞]グループがあります。このなかにある[言葉を…]というパターンをクリックします。
すると、中央のコロケーションパネルに[言葉を+動詞]のコロケーションが頻度順に表示されます。左側の用例パネルには、最も頻度の高い「言葉を…している」の用例が表示されます。
次に、特徴的なコロケーションを表示してみます。NLBでは、頻度順だけでなくMIスコアの順でも並べ替えることができます。MIスコアは統計指標の一つで、特徴的なコロケーションほど数値が高くなる傾向があります。ただし、低頻度のコロケーションの数値が過剰に高くなるため、低頻度のものを排除する必要があります。コロケーションパネルのヘッダーの[MI]をクリックしてから、パネル上で右クリックして[頻度5以上]を選びます。
すると、「言葉を発する」、「言葉を途切らせる」、「言葉を濁す」など、「言葉を」に続く特徴的な動詞が上位に現れます。
それぞれのコロケーションをクリックすると、右のパネルにその用例が表示されます。ここでは、12番目の「言葉を紡ぐ」をクリックしてみます。コーパスで使われている実際の用例を一つずつ確認することができます。
用例はセンテンス単位で表示されます。さらに前後の文脈を確認するときは、それぞれの用例の出典の部分をクリックします。
以下のような前後のセンテンスを表示するダイアログが開きます。
このように、NLBでは、検索ウィンドウでまず見出し語を選んで、見出し語ウィンドウ上で、文法パターン、コロケーション、用例を行き来しながら、その見出し語の振る舞いの全体像をつかむことができます。クリックだけで簡単に操作できますので、思考を途切らせることなくさまざまな表現を思いのままに調べることができます。
詳しい使い方については、操作説明書(PDFファイル、約3.5MB)をご覧ください。
■機能表現検索
語は、文を構成する基本単位であり、実質的な内容を表す内容語と統語的関係を表す機能語に大別することができます。日本語では、動詞、形容詞、名詞、副詞などが内容語に相当し、助詞、助動詞が機能語に相当します。しかし、日本語にはこれ以外に、「~なければならない」、「~たことがある」など、複数の語が組み合わさって機能語としての役割を果たす複合辞が数多く存在します。機能表現とは、統語的関係を表す機能語と複合辞を合わせた総称です。
NLBでは、これまで内容語の振る舞いが分かるプロファイリングを提供してきましたが、同時に、機能表現を検索するためのプロファイリングの手法の開発を進めています。
機能表現のプロファイリングがどのようなものなのか、具体的な例を挙げて説明してみましょう。「そのように感じる・そのように振る舞う」という意味をもつ機能表現「~がる」は、「知りたがる」のように動詞に後続する場合、「欲しがる」のようにイ形容詞に後続する場合、「いやがる」のようにナ形容詞に後続する場合の3つがあります。機能表現プロファイリングでは、まず「~がる」に接続する品詞から選びます。
ここでは、[動詞接続]をクリックしてみましょう。すると、中央のパターンパネルに、「動詞+がる」の前後の機能語も含めたパターンが表示されます。
さらに、パターンの一番上にある[~したがる]をクリックすると、用例パネルにその用例が表示されます。
機能表現プロファイリングでは、このように機能表現の振る舞いを簡単に調べることができます。このツールでは、初級レベルに相当する機能表現約80種類のプロファイリングを検索することができます。ただし、暫定版につき、検索できるのは図書館・書籍サブコーパス(約2933万語)に限られています。詳しい使い方については、以下のユーザガイドをご参照ください。
~間 |
~間に |
~後(で) |
~が |
~ができる |
~がほしい |
~から |
~だから |
~がる |
~くする |
~くなる |
~ことがある |
~ことができる |
~(さ)せてください |
~(さ)せてくれませんか |
~(さ)せてもらえませんか |
~し |
~たい |
~たことがある |
~ため(に) |
~たら |
~たらいい |
~たらどう(ですか) |
~たり~たり |
~たり~たりする |
~て |
~で |
~ていく |
~ていただけませんか |
~てから |
~てください |
~てくださいませんか |
~てくる |
~てくれ |
~てくれませんか |
~ではいけない・~じゃいけない |
~てもいい |
~でもいい |
~てもかまわない |
~でもかまわない |
~てもらえませんか |
~といい |
~とき |
どちらが |
どちらのほうが |
~な |
~ないことがある |
~ないでください |
~ないでくれ |
~ないでくれませんか |
~ないほうがいい |
~ながら |
~なくて |
~なくてはならない・~なくちゃならない |
~なくてもいい |
~なくてもかまわない |
~なくなる |
~なければならない・~なきゃならない |
~なさい |
~に<移動動詞> |
~にくい |
~にする |
~になる |
~ので |
~のに |
~のほうが |
~ばいい |
~ほうがいい |
~前に |
~ましょう |
~ましょうか |
~ませんか |
~まで |
~までに |
~も~し |
~やすい |
~(よ)う |
~(よ)うか |
~ようになる |
~より(も) |
~(ら)れる |
~をください |
~をくれませんか |
この検索ツールは、① 科学研究費挑戦的萌芽研究「大規模コーパスに基づく日本語機能語の基礎研究と機能語検索ツールへの応用(課題番号:16K13228)」、② 科学研究基盤研究(B)「統語・意味解析情報タグ付きコーパス開発用アノテーション研究:複文を中心に(課題番号15H03210)」、③ 国立国語研究所機関拠点型共同研究プロジェクト「統語・意味解析コーパスの開発と言語研究」、④ 科学研究基盤研究(A)「準均衡超大規模日本語コーパスと高速検索ツールの開発(課題番号:18H03575)」の研究助成を受けて開発したものです。
■2語比較機能
バージョン1.30では、新たに2語比較機能が加わりました。比較できるのは、同一の品詞の内容語(名詞、動詞、イ形容詞、ナ形容詞、連体詞、副詞)の組み合わせです。これ以外に、イ形容詞とナ形容詞、イ形容詞と連体詞、ナ形容詞と連体詞の比較も可能です。
ここでは、「冷える」と「冷める」という2つの動詞について調べてみます。見出し語検索のウィンドウの右上にある[2語比較検索]のボタンをクリックします。
次に、[動詞」タブをクリックします。
画面上の入力ボックスに「ひえる」と「さめる」(カタカナ、ローマ字も可)をスペースで区切って入力して、[絞り込み]ボタンをクリックします。下のリストに「ひえる」と「さめる」という読みをもつ見出し語が現れます。
比較したい2語(ここでは、「冷える」と「冷める」)にチェックマークを入れて、リストの右上にある[2語比較]ボタンをクリックします。
「冷える」と「冷める」の2語比較のウィンドウが開きます。
ここでは、ガ格名詞を比較してみます。左側の文法パターンパネルの一番上にある「…が冷える」または「…が冷める」のパターンをクリックします。
すると、中央のコロケーションパネルに「…が冷える」と「…が冷める」が表示されます。
最初の状態では、コロケーションはLD差の降順に並んでいます。LD差というのは、左側のコロケーション(この場合は、「…が冷える」)のLD(ログダイス値)から、右側のコロケーション(この場合は、「…が冷める」)のLDを引いたものです。LD差が大きくなればなるほど、「…が冷える」の特徴的なコロケーションと言えます。逆に、LD差が小さくなればなるほど、「…が冷める」の特徴的なコロケーションになります。視覚的に理解しやすいように、LD差が大きくなるほど濃い黄色で、LD差が小さくなるほど濃い紫でハイライトされます。上の画面では、「…が冷える」の特徴的なコロケーションが表示されていますが、「…が冷める」の特徴的なコロケーションを見るときは、[LD差]のヘッダーをクリックして、LD差の昇順に並べ替えます。
両方のコロケーションを詳細に分析するために、コロケーションパネルのフッターに3種類のボタンセットが用意されています。このボタンを組み合わせることで、頻度、LD差、出現位置(2語のうちどちらの語と共起しているか、両方か、どちらか一方か)を自由に調整して、分析を進めることができます。
これ以外に、両方の語に共通するコロケーションの違いを用例レベルで調べることなどもできます。詳しい使い方については、操作説明書(PDFファイル、約3.5MB)の10節をご覧ください。
■オノマトペ検索
NLBの形態素解析では、代表表記を追加したIPA辞書を使用しています。これまで使用してきた辞書では、オノマトペは主に副詞辞書(Adverb.csv)に収録され、その数は表層形レベルで1,700語前後と限られていました。そのため、頻度の低いオノマトペを拾い切れていないという課題がありました。
NLB1.40版では、そのような課題を克服するために、新たにオノマトペ専用の形態素解析辞書を作成し、それを従来の辞書に追加して形態素解析を行いました。その結果、約4,300種類のオノマトペのプロファイリングを作成することができました。
オノマトペ以外の内容語(名詞、動詞、形容詞、副詞、連体詞)のプロファイリングは、これまでのIPA辞書で形態素解析した結果に基づいています。そのため、同一のオノマトペでも、副詞タブに含まれているオノマトペの見出しと、オノマトペタブの見出しでは、頻度などプロファイリングの結果が異なっていますのでご注意ください。
以下では、IPA辞書を拡張するために作成したオノマトペ基礎データとIPA辞書の再構成について説明します。
◆参照したリソース
現代日本語で使用されているオノマトペを網羅的に収録することを目的として、以下の3つのリソースを参照して、オノマトペ基礎データを作成しました。
小野正弘.(2007)『擬音語・擬態語4500 日本語オノマトペ辞典』小学館.3,991語 |
Kakehi, Hisao, Ikuhiro Tamori, and Lawrence Schourup. (1996). Dictionary of Iconic Expressions in Japanese. Mouton de Gruyter. 3,240語 |
Unidicオノマトペ辞書 5,736語(異表記含む) |
基礎データの項目は、表層形、読み、代表表記、代表表記読み、代表表記ローマ字読み、テンプレートの6項目です。
◆代表表記の設定
レキシカルプロファイリングを行うには、形態素解析用辞書に代表表記の情報を含める必要があります。オノマトペの代表表記については、以下の基準に従いました。
・ひらがな表記とカタカナ表記がある場合は、ひらがな表記を代表表記にする |
例)「あたふた」、「アタフタ」の代表表記は「あたふた」に |
・長音に「あいうえお」を使っているものは、長音記号(ー)を使ったものを代表表記にする |
例)「があがあ」、「がーがー」の代表表記は「がーがー」に |
・「っ」で終わるオノマトペについては、代表表記を2つに区分…「っ」で終わる形と「っと[て]」で終わる形 |
例)「ぱっ」は、「ぱっ」と「ぱっと[て]」の2つに区分、「ぱっと[て]」の代表表記は「ぱっと」 |
◆テンプレート
日本語のオノマトペには典型的な形態(テンプレート)が存在し、それぞれが特徴的な振る舞いをすることが知られています。オノマトペ基礎データでは、以下の12種類のテンプレートを記載しました。全体の66% のオノマトペが、これらのテンプレートのいずれかを満たします。
・ | CVQ(ぽっ), CVN(ぽん), CViQ(ぽいっ), CVV(ぽー), CVV-CVV(ぽーぽー), CVN-CVN(ぽんぽん), CVi-CVi(ぽいぽい) |
・ | CVCVQ(ぽこっ), CVCVN(ぽこん), CVCVri(ぽこり), CVCCVri(ぽっこり), CVCV-CVCV(ぽこぽこ) |
(略記法:C=子音、V=母音、Q=促音、N=撥音、VV=長母音) |
これらに当てはまらないものは「other」としました。「other」の中には、「コケコッコー」のような珍しい形の語だけでなく、「ぽこっ」(CVCVQ)からの派生形である「ぽこぽこっ」なども含まれています。
◆辞書の再構成
・副詞辞書(Adverb.csv)からオノマトペ(表層形で約1,700項目)を削除 |
・名詞・サ変可能辞書(Noun.verbal.csv)からオノマトペを削除…「びっくりする」、「やきもきする」など |
※オノマトペはすべて副詞として扱う |
※「びっくりする」などは「オノマトペ+する」のパターンとして抽出するように変更 |
◆オノマトペIPA辞書(Adverb.onomatopoeia.csv)の収録語数
・表層形で13,089項目、代表表記で6,941項目 |
・1字のオノマトペは辞書に登録せず…形態素解析の精度が著しく低下するため |
例)オノマトペの「が」を登録すると、助詞の「が」をオノマトペの「が」と誤認識してしまう |
監修:秋田喜美(名古屋大学)、プラシャント・パルデシ(国立国語研究所) |
基礎データ作成:秋田喜美 |
基礎データ入力補助:平田佐智子、朴智娟 |
設計・開発:赤瀬川史朗(Lago言語研究所) |
■ご利用にあたって
1. | 【動作環境】ブラウザはFirefox、Chrome、Safari、Edgeに対応しています。 | |
2. | 【クッキーの設定】使用にあたってはブラウザのクッキーをオンにしてください。オフにした状態ではデータが表示されません。クッキーをオンにする方法については、各ブラウザのマニュアル等でご確認ください。 | |
3. | 【表示結果】NLBでは、機械的に処理した結果をそのまま表示しています。形態素・係り受け解析や抽出処理の精度の限界により不適切なデータが混入しています。あらかじめご了承ください。 | |
4. | 【論文・記事を公表する場合】NLBを研究・教育に利用して論文や記事を執筆される場合は、以下のように、必ずNLBを利用した旨を明記してください。
| |
5. | 【商業利用】辞書制作など、NLBを商業利用する場合は事前にお問い合わせください。 |
■更新履歴
2016/12/12 | ver.1.40 公開 | オノマトペの検索機能を追加 |
2014/08/25 | ver.1.30 公開 | 類義語などを比較するための2語比較機能を追加 |
2013/06/20 | ver.1.20 公開 | 出版サブコーパス新聞(PN)を除くBCCWJ全データ対応 |
2012/12/25 | ver.1.10 公開 | ナ形容詞対応、コロケーションパネルPMW表示、ダウンロード機能追加 |
2012/06/15 | ver.1.00 公開 |
■お問い合わせ
NLBに関するお問い合わせは以下までお願いいたします。
一般的なご質問
技術的なご質問