Die Gedanken von So Miyagawa

投稿

YouTubeで学べる自然言語処理〜BERTを中心に〜

11月 30, 2021

BERTを中心にした、YouTubeの自然言語処理の解説ビデオのまとめです。 BERT 【プロモーション動画】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch? v=fCW7FeZXLRo&list=PLcd5jOpoEDGDzTJHVRwHMT7iMY8XeD1v0 【1-1: イントロダクション】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=8yDtMaTFZ0s 【1-2: コースの概要】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=TOVUrgzX76c 【1-3: 自然言語処理の概要】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術-　 https://www.youtube.com/watch?v=DQn3WfACExI 【1-4: Transformerの概要】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=uJG4ELehq-A 【1-5: BERTの概要】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=RVJLKwOzDmI 【1-6: Google Colaboratoryの使い方】BERTによる自然言語処理を学ぼう！ -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=4Qgkbww-tbc&list=PLcd5jOpoEDGDzTJHVRwHMT7iMY8XeD1v0&in...

深層学習と言語モデルについて　Google Colaboratory

11月 26, 2021

今日は、詳しくは企業秘密なので言えませんが、Googleのとある研究ユニットに勤めている友人が研究室を訪ねてきました。 Google Cola bを使って、深層学習で、あるアフリカの言語の言語モデルを作ろうという話になり、ちょっとやってみました。Pre-Trainedの言語モデルで、要は、テキストファイルのその言語のテキストをできるだけたくさん与えれば良いらしいです。Pre-trained（事前学習済み）言語モデルとは、機械に言語データを大量に与えて、その機械にこの単語が来れば、次はこの単語が来そうとか、この位置ではこの語形が来そうとか、重み付けで、学習させたものです。この際に、品詞やレンマなどの情報やタグ付けは無用で、ただ単に、Unicodeなどで書かれ機械可読な形にしたプレインテキストを大量に与えるだけでいいです。まず事前学習済み言語モデルを作ってしまって、そのあと、レンマや品詞タグ付けなどの形態素解析とか統語解析とか係り受け解析とかOCR（画像と文字とのマッチング）をやると、優れた解析モデル、OCRモデルができるよ、とのことです。なので、まずは、この言語で、事前学習済み言語モデルを作ってみようとおもいます。ここでいう、モデルとは、理想像みたいないみでなく、ある言語のパターンを機械的に何万例も見せつけられて、だいたいパターンを会得した、疲れ知らずの学習を終えた生徒みたいな感じです。ここで重要なのは、この機械学習の教育理念は、教科書を与えて、ある言語の文法を教師が丁寧に教えていく、という学習方法ではなく、この生徒に教えるのは、その言語の例文を何万通りも、休む暇もなく見せ続ける、超スパルタで、非人間的な学習方法です。機械なので、そのようなことも簡単にできちゃいます（ただし、電力とかを食う、あと、良いGPUがあった方が良い）。これをやるにはロボットの生徒が良い設備をもっていることが重要ですが、最近では、GPUがその良い設備となっています。よいGPUがあれば、より早く学習できるわけですが、機械学習で使われるようなNVIDIAのA100のようなGPUだと、安くて定評があるかんじの見た目の某ネットストアでは 179万円します（執筆時点）。この悩みを解決するのが、遠隔で、どこかの企業のすごいコンピュータのGPUを使わせてもらうやり方ですが、Googleで...

日琉諸語訳聖書の電子テクスト（できるだけ二次利用可能で加工しやすいもの）について（なかったら写真やPDF） arudaqe jenbu　日本語、琉球語

11月 24, 2021

キリシタンフェルナンデス訳(1563) 　見つかっていない　フロイス訳(1613)　見つかっていない（ラサール訳(1811,1822) 　漢訳）愛知大学国研叢書第４期第５冊ラサール訳『嘉音遵？？菩薩之語』 ──研究と影印・翻刻── Lassar’s Chinese Version of the Gospel According to St. Matthew. A Study on the Original Texts and Transliterated Words: with an Appendix of a Facsimile and the Text 永井崇弘・塩山正純編「1807年、アルメニア人のキリスト者ラサール（Johannes Lassar）の手になる漢訳「マタイの福音書」は、インドのフォート・ウィリアム大学副学長のブキャナンより英国カンタベリー大主教へ謹呈された。２世紀を経て今日、英国ランベス・パレス図書館に蔵されるその漢訳「マタイの福音書」を翻刻、影印。音訳語を比較検討し、ラサールが漢訳した道程を探る。漢訳聖書研究における貴重な史料を提供。」（ARMあるむ、新刊紹介、http://www.arm-p.co.jp/book_new.htmlより）ギュツラフ訳(1837) ヨハネ　写真 S・W・ウィリアムス訳(1841,1850) これに関する出版物　１　２　（筆者未読）ベッテルハイム訳琉球語(1855) 福音書　写真・一部テキスト横浜浸礼教会版『新約全書』（1886）写真PDF W.J.ホワイトのよる漢字交じり表記の横浜第一浸礼教会刊『新約全書』ゴーブル訳(1871) ジョナサン・ゴーブル訳『摩太福音書』の研究「日本初のプロテスタント訳聖書」ゴーブル訳「摩太福音書」　復刻版　明石書店ヘボン/ブラウン共訳(1872,1873) 1872年：馬可傳、約翰傳　1873年：馬太傳ブラウン訳(1879) N・ブラウン訳新約聖書『志無也久世無志与』（ 1879 ） PDF 「解説Ｎ・ブラウン訳新約聖書『志無也久世無志与』（1879）のうちマルコ伝福音書の改訂版。Ｎ．ブラウン(Nathan Br...

LaTeX Beamerでおしゃれなスライドが作れるカスタムBeamer Theme

11月 22, 2021

写真は HamaluikによるBeamer Theme このQiitaのページの一覧が非常に参考になった。　 https://qiita.com/htlsne/items/70cbb488e7a87cd9e228 でも、やっぱり学会で使うには、落ち着いたデザインがいいかな。デフォルトで入っているBeamer Themeなら、BerlinやSingapore、ほかの人が配布しているものなら Metropolis が気に入っている。写真はOverLeafにあるMetropolisのサンプルPDF から

日本語のword segmentation 語分割、形態素解析、係受解析、統語解析などの覚書

11月 22, 2021

使えそうな論文やサイトへのリンク集 JAPANESE WORD SEGMENTATION BY HIDDEN MARKOV by C Papageorgiou · 1994 Character-to-Word Attention for Word Segmentation by S Higashiyama 2020 Automatic Word Segmentation using Three Types of Dictionaries by Shinsuke Mori, Hiroki Oda 2011 岡照晃: 「CRF素性テンプレートの見直しによるモデルサイズを軽量化した解析用UniDic ― unidic-cwj-2.2.0 と unidic-csj-2.2.0 ― 」, 言語資源活用ワークショップ2017発表予稿集, pp.143-152 (2017). 伝康晴, 小木曽智信, 小椋秀樹, 山田篤, 峯松信明, 内元清貴, 小磯花絵：「コーパス日本語学のための言語資源：形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007). UniDicなど伝康晴. 多様な目的に適した形態素解析システム用電子化辞書, 人工知能学会誌, Vol.24, No.5, pp.640-646 (2009). 統計的テキスト解析(3)～形態素と構文解析～非常に良いまとめ deplacyを用いた日本語文法解析 - Colaboratory Universal Dependenciesによる係り受け解析、安岡孝一氏形態素解析システムJUMAN - 京都大学言わずと知れた形態素解析システム日本語形態素解析 Yahoo! JAPANによる。語分割・品詞解析・レンマ解析して、XML形式で解析結果を出力。形態素解析非常に良いまとめ京都テキスト解析ツールキット(KyTea、「キューティー」) 単語分かち書きなど

PARADISEC

11月 21, 2021

https://catalog.paradisec.org.au/のスクリーンショット。 PARADISEC （パラディセック）はオーストラリアの三大学（シドニー大学、メルボルン大学、オーストラリア国立大学）が中心になって運営している、言語資料、特に危機言語の音声言語資料のアーカイブ。環太平洋の諸言語が中心。 PARADISECは、the Pacific And Regional Archive for Digital Sources in Endangered Culturesの略。「私たちは、14,000時間の音声記録と2,000時間の映像記録を保持しています。これは125テラバイトに相当し、主に太平洋地域の1,281の言語を表しています。」らしい。デジタルアーカイブで最近よく使われる、 FAIR 原則に基づくらしい。 FAIRとは、 Data should be Findable　　データは検索可能でなければならない Data should be Accessible　データはアクセス可能でなければならない Data should be Interoperable　データは相互利用可能でなければならない Data should be Re-usable.　データは再利用可能でなければならないあと、TRUST原則も用いているらしい（筆者はTRUST原則はここで初めて聞いた）。 T ransparency To be transparent about specific repository services and data holdings that are verifiable by publicly accessible evidence. R esponsibility To be responsible for ensuring the authenticity and integrity of data holdings and for the reliability and persistence of its service. U ser Focus To ensure that the data management norms and expectations of target user communities are me...

このブログを検索

様々な言語に翻訳

Die Gedanken von So Miyagawa

投稿

王の名は。Pharaoh’s name — ラメセスは当時なんと発音されていたか？

YouTubeで学べる自然言語処理〜BERTを中心に〜

深層学習と言語モデルについて　Google Colaboratory

日琉諸語訳聖書の電子テクスト（できるだけ二次利用可能で加工しやすいもの）について（なかったら写真やPDF） arudaqe jenbu　日本語、琉球語

LaTeX Beamerでおしゃれなスライドが作れるカスタムBeamer Theme

日本語のword segmentation 語分割、形態素解析、係受解析、統語解析などの覚書

PARADISEC

アーカイヴ

ラベル