投稿

ラベル(NLP)が付いた投稿を表示しています

YouTubeで学べる自然言語処理〜BERTを中心に〜

 BERTを中心にした、YouTubeの自然言語処理の解説ビデオのまとめです。 BERT 【プロモーション動画】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch? v=fCW7FeZXLRo&list=PLcd5jOpoEDGDzTJHVRwHMT7iMY8XeD1v0 【1-1: イントロダクション】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=8yDtMaTFZ0s 【1-2: コースの概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=TOVUrgzX76c 【1-3: 自然言語処理の概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術-  https://www.youtube.com/watch?v=DQn3WfACExI 【1-4: Transformerの概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=uJG4ELehq-A 【1-5: BERTの概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術-  https://www.youtube.com/watch?v=RVJLKwOzDmI 【1-6: Google Colaboratoryの使い方】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=4Qgkbww-tbc&list=PLcd5jOpoEDGDzTJHVRwHMT7iMY8XeD1v0&index= 【2-1

深層学習と言語モデルについて Google Colaboratory

イメージ
 今日は、詳しくは企業秘密なので言えませんが、Googleのとある研究ユニットに勤めている友人が研究室を訪ねてきました。 Google Cola bを使って、深層学習で、あるアフリカの言語の言語モデルを作ろうという話になり、ちょっとやってみました。Pre-Trainedの言語モデルで、要は、テキストファイルのその言語のテキストをできるだけたくさん与えれば良いらしいです。Pre-trained(事前学習済み)言語モデルとは、機械に言語データを大量に与えて、その機械にこの単語が来れば、次はこの単語が来そうとか、この位置ではこの語形が来そうとか、重み付けで、学習させたものです。 この際に、品詞やレンマなどの情報やタグ付けは無用で、ただ単に、Unicodeなどで書かれ機械可読な形にしたプレインテキストを大量に与えるだけでいいです。まず事前学習済み言語モデルを作ってしまって、そのあと、レンマや品詞タグ付けなどの形態素解析とか統語解析とか係り受け解析とかOCR(画像と文字とのマッチング)をやると、優れた解析モデル、OCRモデルができるよ、とのことです。 なので、まずは、この言語で、事前学習済み言語モデルを作ってみようとおもいます。ここでいう、モデルとは、理想像みたいないみでなく、ある言語のパターンを機械的に何万例も見せつけられて、だいたいパターンを会得した、疲れ知らずの学習を終えた生徒みたいな感じです。 ここで重要なのは、この機械学習の教育理念は、教科書を与えて、ある言語の文法を教師が丁寧に教えていく、という学習方法ではなく、この生徒に教えるのは、その言語の例文を何万通りも、休む暇もなく見せ続ける、超スパルタで、非人間的な学習方法です。機械なので、そのようなことも簡単にできちゃいます(ただし、電力とかを食う、あと、良いGPUがあった方が良い)。 これをやるにはロボットの生徒が良い設備をもっていることが重要ですが、最近では、GPUがその良い設備となっています。よいGPUがあれば、より早く学習できるわけですが、機械学習で使われるようなNVIDIAのA100のようなGPUだと、安くて定評があるかんじの見た目の某ネットストアでは 179万円します (執筆時点)。 この悩みを解決するのが、遠隔で、どこかの企業のすごいコンピュータのGPUを使わせてもらうやり方ですが、Googleでは、Go

日本語のword segmentation 語分割、形態素解析、係受解析、統語解析などの覚書

使えそうな論文やサイトへのリンク集  JAPANESE WORD SEGMENTATION BY HIDDEN MARKOV   by C Papageorgiou · 1994 Character-to-Word Attention for Word Segmentation   by S Higashiyama 2020 Automatic Word Segmentation using Three Types of Dictionaries by Shinsuke Mori, Hiroki Oda  2011 岡 照晃: 「CRF素性テンプレートの見直しによるモデルサイズを軽量化した解析用UniDic ― unidic-cwj-2.2.0 と unidic-csj-2.2.0 ― 」, 言語資源活用ワークショップ2017発表予稿集, pp.143-152 (2017). 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007). UniDicなど 伝 康晴. 多様な目的に適した形態素解析システム用電子化辞書, 人工知能学会誌, Vol.24, No.5, pp.640-646 (2009). 統計的テキスト解析(3)~形態素と構文解析~ 非常に良いまとめ deplacyを用いた日本語文法解析 - Colaboratory Universal Dependenciesによる係り受け解析、安岡孝一氏 形態素解析システムJUMAN - 京都大学 言わずと知れた形態素解析システム 日本語形態素解析 Yahoo! JAPANによる。語分割・品詞解析・レンマ解析して、XML形式で解析結果を出力。 形態素解析 非常に良いまとめ 京都テキスト解析ツールキット(KyTea、「キューティー」) 単語分かち書きなど