日本言語学オリンピック 直前対策
今日(2019/03/21)でJOL(日本言語学オリンピック)2019本番まであと3日。これまで解説記事とかそういうのを全く書いてこなかったお詫びとして本番までのあと3日間で初心者が知っておくべき問題の解き方や基礎的な知識を羅列した駄文を錬成したので「日本言語学オリンピックに申し込んだはいいが練習量が足りなくて不安」って方は見てほしい。
2019/12/27 誤記の訂正をしました
この記事の読み方・練習の進め方
まずは「基本的な事項」と「頻度解析」の項を読んだあと,「ジャンル紹介」の各分野にある「おすすめ例題」を「やり方」に従って解いていこう。必要に応じて「知識」も参照してほしい。
おすすめ例題を全て解いてしまったら
- JOL2018
- JOL2017
- UKLOの難易度別問題一覧の難易度2.5~9
- PLOの難易度別問題一覧の黄緑~オレンジ
を自分が好きそうな問題から順に埋めると良い。
過去問を示すのには「(大会名)(年号)-(問題番号)」の略記を使った。
大会名の一覧
- JOL : 日本言語学オリンピック 過去問一覧 : https://iolingjapan.org/preparation/
- IOL : 国際言語学オリンピック 過去問一覧 : http://www.ioling.org/problems/ (2013年以降の問題は日本語文なし)
- UKLO : イギリス言語学オリンピック 過去問一覧 : https://www.uklo.org/problems (英語)
- OzCLO : オーストラリア言語学オリンピック 過去問一覧 : https://ozclo.org.au/past-problems/ (英語)
- NACLO : 北アメリカ言語学オリンピック 過去問一覧 : http://www.nacloweb.org/practice.php (英語)
- PLO : パーニニ言語学オリンピック(インド大会) 過去問一覧 : https://ltrc.iiit.ac.in/nlpmt/plo/#/resource/ (英語)
基本的な事項
- 色ペンをありったけ持っていくと良い : 特定の単語に下線を引くと,その単語がデータ中のどこに出現するのかわかりやすくなるのでおすすめ。下線引きを複数の単語でやると色ペンがたくさん必要になる。
- 解答に書くべきことは
- 設問に対する答え
- 問題文で指示された場合にはその言語の構造の説明も記述する必要がある,具体的に何を書くかと言うと
- 語順
- 文法的な役割を持つ語の一覧表
- ある語が特定の条件で変化する場合はその規則
万能,頻度解析
頻度解析は言語学オリンピックのほとんどの問題に対して有効なテクである。
- データとその翻訳に出てくる単語を全てリストアップし,それぞれの出現回数を数える
- データ中のある語と翻訳中のある語の出現回数が近い場合は,その二つの語が対応している可能性が高い。
この方法はかなり広い範囲で使えるので迷ったら試してみよう。
ジャンル紹介
言語学オリンピックで出題される問題にはいくつかのジャンルがある。ここではJOLで出る可能性が高い順で,個々のジャンルをその解き方や知っておくと強い知識,おすすめの例題と一緒に紹介する。
形態素解析
未知の言語の短い文章またはフレーズが数個,さらにそれらの翻訳が与えられる。与えられたデータから言語の構造を解明するのが目的。言語学オリンピックでは一番典型的な問題のタイプ。JOL2018-2, JOL2018-3やJOL2017-1, JOL2017-2など。
やり方
- データに出てくる単語や接辞に下線を引き,どの語がどこに出現するのかわかりやすくする。(同じ語には同じ色で,違うやつには違う色で)
- 同じ語が出てくるデータどうしや,ある一部分のみが異なるデータどうしなどを比べ,翻訳の共通点や相違点を探し,語の意味を特定する。
- 上の手順で特定した語の意味をもとに,他の単語の意味も芋づる式に調べ,同時にその言語の文法構造も解明していく。 ※ 同じ語でも文のどこに出現するかや前後の単語などによって形が変わることがあるので注意。例えばJOL2018-3では -bowaan- という接辞が後ろに k が続く場合 -bowaaŋ-, d が続く場合 -bowaan- というように形が変わっているが,これはどちらも同じ意味を表す同じ語である。
おすすめ例題
- JOL2018-2 べジャ語 (問題文 非公式解答)
- JOL2018-3 ナーナイ語 (問題文 非公式解答)
- IOL2006-1 ラコタ語 (問題文 解答)
- UKLO2016-6 アメレ語 (問題文,解答)
- UKLO2017R2-9 アブハズ語 (問題文,解答)
- UKLO2014R2-1 スワヒリ語 (問題文,解答)
- IOL2017-5 マダク語 (問題文 解答)
文字
[ 未知の文字体系で書かれた文章や語がその読み方と共にいくつか与えられ,そのデータを元に未知の文字を解読していく。去年(2018年)のJOLでは5問中2問が文字に関する問題だった。
やり方
- まずはその文字体系がどの方向に向かって書かれるか(ラテン文字だったら左から右,アラビア文字だったら右から左など)を特定する。縦書きの場合は上から下に文章が進んで行くのか,それとも逆なのかを特定する。世界には下から上に向かって書き進めていく文字体系も少数ながら存在するので注意。JOL2018-4の突厥文字は横書きで右から左,同じく5のモンゴル文字は縦書きで上から下,チベット文字は横書きで左から右。
- 同じ文字が繰り返し出てくるところに注目する。
知識
世界の文字体系はその特徴からいくつかの種類に分けられる。 - アルファベット : 基本的に文字と音が一対一で対応するタイプ。ラテン文字とかキリル文字とかギリシャ文字とか。名前は「アルファベット」ってなってるけどラテン文字だけを指すわけではない。 - アブジャド : 母音を省略して子音だけを表記するタイプ。淫夢でよくあるTDN表記みたいなやつ。アラビア文字やヘブライ文字が有名。突厥文字は部分的に母音を省略するのでこれとアルファベットのハイブリッド。 - アブギダ : 子音を表す文字の周りに母音を表す補助記号をくっつけるタイプ。JOL2018-5のチベット文字がこのタイプ。 - 音節文字 : 基本的に一文字が一音節を表すタイプ。ひらがな・カタカナはこれ(厳密に言うと少し違うけど)。他にはチェロキー文字とかもこのタイプ。
同じ文字であっても語中のどこに現れるかで文字の形が変わることがある。 例えばJOL-2018-5で出題されたモンゴル文字は1つの文字に語頭の形・語中の形・語末の形の3つがある。赤い枠で囲った部分は同じ文字だが,1つは語頭,もう2つは語中に存在するので形が少し変わっている。
おすすめ例題
- JOL2018-5 モンゴル語,チベット語 (問題文 非公式解答)
- IOL2017-4 ラベン語 (問題文 解答)
- UKLO2016R2-4 デーヴァナーガリー (問題文,解答)
- UKLO2014-9 ロンタラ文字 (問題文,解答)
語対応
ある言語の単語とその翻訳が与えられる。形態素解析と違うのは,完結した文章じゃなくて単語の集まりが与えられるところ。日本語や英語と問題の言語では,意味が同じでもその概念をどう言語化しているかが全く違うことが多い。
例えば
- パプアニューギニアで話されるアブイ語では「枝」という意味の語を「木の手」,「引き金」を「銃の耳」と言う。(ある物体の一部分を指し示すために,生き物の体の部位を表す語を使っている)
- 同じくパプアニューギニアで話されるイアトムル語では「車」を「陸のカヌー」,「牛」を「白人の豚」,「ライフル銃」を「白人の槍」と言う。(近代になって西洋から持ち込まれたものを表すために,元からあった似た概念を表す語に「陸の」や「白人の」といった修飾語を付けて使っている)
- 中央アフリカで話される北西バヤ語では「幸福」を「良い肝」,「死にかけている」 1 を「足を穴の端に置く」という。
最後の北西バヤ語なんかはもうほとんど連想ゲームみたいになってるけど,もちろんこのジャンルにも解くために有効な技は存在する。
語対応は(1)○○語を分解して, パーツの種類かぞえて, 今度は訳の方をその数のパーツだけで解釈して, (2)後は頻度参考にあてはめてみる。(3)大体説明できる規則を見つけたら, 例外の方を説明できる規則を探す
— ふるほむ (@fulfom) 2019年3月20日
(2)が苦行 良く使いそうな語だから短そう とか 複数の方が有標かな とかいう勘で解く…
このfulfomさんのツイートに書いてある方法でやると結構いける。補足
— ふるほむ (@fulfom) 2019年3月20日
語構造を忘れがちなの気をつける
頻度は想定外があるのでちょっと増えたり減ったりする(go-went みたいな補充法とか)
設問は結構露骨なヒントになってる
おすすめ例題
音韻・韻律
未知の言語の音韻や韻律に関する規則(アクセントがどこに置かれるか,音の配置にはどのような制約があるか)などを調べる問題。
やり方
- 単語を音節ごとに区切って見る
- 区切った音節が開音節(母音で終わる音節)なのか閉音節(子音で終わる音節)なのかなどを調べていく
数詞
未知の言語で書かれた数式が与えられ,それを元にその言語の数詞のしくみを解明する問題。数論の知識でゴリ押したりが結構できるので競プロerとか数オリerとかパズル勢には結構面白いんじゃないだろうか。
やり方
- 基数を特定する。
- 方程式を大量に立ててゴリ押す。
- 数学を使う。
この分野に関しては解き方のアプローチが結構あるので,自分に合っている方法を臨機応変に使おう。
知識
- 世界には10進法を以外で数を数える言語が多数存在するので,基数をどうにかして特定することが大事になってくる。
- 基数になることが多い数は,10, 20, 6, 4, 15, 8, 12あたり。これら以外の基数を使っている言語や,複数の基数を混ぜて使っている言語も存在するが,大きな素数(37とか)を基数として使うのは自然言語では考えにくい。
- 56を「50に向かって6」,47を「50に向かって7」というように表現する言語もある。(IOL2005-3のマンシ語など)
- 小さい数やその言語が採用している進法でキリの良い数(10進法であれば10, 100など,20進法であれば400, 8000など)は短い単語で,大きい数やキリの悪い数は長い単語で表される傾向がある。
- 体の部位を表す単語を数を数えるのに転用していることがある。(5を「手」,6を「手 + 1」というように表す)
おすすめ例題
家系図
未知の言語で書かれた家系図が与えられ,空欄になっているところを埋めたり,その言語で家族関係をどう表すかを解明したりする。
やり方
ryoanjing.hatenablog.com この記事がわかりやすいので読もう。(丸投げ)
おすすめ例題
パズル
未知の言語を使ったパズル。それ以上でもそれ以下でもない。JOLだと出ない気がする。今年出たらごめん。
やり方
地頭を使いましょう。
最後に
誤字の報告やこの記事でわからないことなどがあったらTwitter:@zohen0までお願いします。もっと詳しく解説して欲しい部分があったらリプなどで是非教えてください。
-
IOL公式サイトに上がっている日本語版の問題では「死ぬ」とされているが、これは英語版から訳したときの誤訳。この他にもIOLの日本語版の問題文には稀に誤訳があるので注意。↩