投稿

王の名は。Pharaoh’s name — ラメセスは当時なんと発音されていたか?

イメージ
王の名は。Pharaoh’s name — ラメセスは当時なんと発音されていたか? 図1:ラメセス2世の胸像(大英博物館蔵) Pbuergler -CC BY-SA 3.0 メリークリスマス!ADVENTERの2023年アドベントカレンダー「 言語學なるひと〴〵 」で12月25日担当になりました。しかし、現在エジプトで調査中で、詳しくはここで書けませんが、色々予期せぬ(ポジティブな意味で)事態に対処するため右往左往していて、日本時間の25日に間に合いませんでした・・・。 それでもなんとかエジプト時間の25日に間に合わせました。 ADVENTERでは、歴史的仮名遣い、キリシタン資料でのポルトガル式ローマ字表記で書こうとしていましたが、時間的に難しかったです・・・大変申し訳ありません。また調査の合間に悪路に揺られる車の中で、大変疲弊した状態で書いているので、誤記や誤植がないか心配です。もしタイポなどがありましたら、筆者まで直接お知らせください。よろしくお願いいたします。 今、この記事を書いているエジプト・ルクソールでは至る所にサンタのステッカーが見られますが、エジプトでもかなり12月25日のクリスマスが祝われるようになってきていると感じています。 しかしながら、エジプトの人口の1割を占める、エジプトに根付いたキリスト教の一派であるコプト正教会では、クリスマスは、1月7日に祝われます。もっと詳しくいうと、1月6日の日没から、1月7日の日没にかけてですが、これはなぜかというと、コプト正教会は、ユリウス暦という古い暦を使っているからです。現在私たちは、グレゴリオ暦という比較的新しい暦を使っています。 グレゴリオ暦を制定したのは、ローマ教皇グレゴリウス13世で、これは1582年のことでした。これに対して、ユリウス暦は、紀元前45年にユリウス・カエサルが制定したローマ帝国の暦です。キリストが磔刑に処されたのが紀元後30年頃ですので、このユリウス暦が制定された後、75年程度でキリスト教が成立したことになります。 そして、このユリウス暦での12月25日は、グレゴリオ暦の1月7日になります。このユリウス暦でクリスマスを祝っているのは、コプト正教会だけでなく、非カルケドン派では、エチオピア正教会、エリトリア正教会、アルメニア使徒教会、シリア正教会があり、カルケドン派(ギリシア正教)では、

YouTubeで学べる自然言語処理〜BERTを中心に〜

 BERTを中心にした、YouTubeの自然言語処理の解説ビデオのまとめです。 BERT 【プロモーション動画】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch? v=fCW7FeZXLRo&list=PLcd5jOpoEDGDzTJHVRwHMT7iMY8XeD1v0 【1-1: イントロダクション】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=8yDtMaTFZ0s 【1-2: コースの概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=TOVUrgzX76c 【1-3: 自然言語処理の概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術-  https://www.youtube.com/watch?v=DQn3WfACExI 【1-4: Transformerの概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=uJG4ELehq-A 【1-5: BERTの概要】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術-  https://www.youtube.com/watch?v=RVJLKwOzDmI 【1-6: Google Colaboratoryの使い方】BERTによる自然言語処理を学ぼう! -Attention、TransformerからBERTへとつながるNLP技術- https://www.youtube.com/watch?v=4Qgkbww-tbc&list=PLcd5jOpoEDGDzTJHVRwHMT7iMY8XeD1v0&index= 【2-1

深層学習と言語モデルについて Google Colaboratory

イメージ
 今日は、詳しくは企業秘密なので言えませんが、Googleのとある研究ユニットに勤めている友人が研究室を訪ねてきました。 Google Cola bを使って、深層学習で、あるアフリカの言語の言語モデルを作ろうという話になり、ちょっとやってみました。Pre-Trainedの言語モデルで、要は、テキストファイルのその言語のテキストをできるだけたくさん与えれば良いらしいです。Pre-trained(事前学習済み)言語モデルとは、機械に言語データを大量に与えて、その機械にこの単語が来れば、次はこの単語が来そうとか、この位置ではこの語形が来そうとか、重み付けで、学習させたものです。 この際に、品詞やレンマなどの情報やタグ付けは無用で、ただ単に、Unicodeなどで書かれ機械可読な形にしたプレインテキストを大量に与えるだけでいいです。まず事前学習済み言語モデルを作ってしまって、そのあと、レンマや品詞タグ付けなどの形態素解析とか統語解析とか係り受け解析とかOCR(画像と文字とのマッチング)をやると、優れた解析モデル、OCRモデルができるよ、とのことです。 なので、まずは、この言語で、事前学習済み言語モデルを作ってみようとおもいます。ここでいう、モデルとは、理想像みたいないみでなく、ある言語のパターンを機械的に何万例も見せつけられて、だいたいパターンを会得した、疲れ知らずの学習を終えた生徒みたいな感じです。 ここで重要なのは、この機械学習の教育理念は、教科書を与えて、ある言語の文法を教師が丁寧に教えていく、という学習方法ではなく、この生徒に教えるのは、その言語の例文を何万通りも、休む暇もなく見せ続ける、超スパルタで、非人間的な学習方法です。機械なので、そのようなことも簡単にできちゃいます(ただし、電力とかを食う、あと、良いGPUがあった方が良い)。 これをやるにはロボットの生徒が良い設備をもっていることが重要ですが、最近では、GPUがその良い設備となっています。よいGPUがあれば、より早く学習できるわけですが、機械学習で使われるようなNVIDIAのA100のようなGPUだと、安くて定評があるかんじの見た目の某ネットストアでは 179万円します (執筆時点)。 この悩みを解決するのが、遠隔で、どこかの企業のすごいコンピュータのGPUを使わせてもらうやり方ですが、Googleでは、Go

日琉諸語訳聖書の電子テクスト(できるだけ二次利用可能で加工しやすいもの)について(なかったら写真やPDF) arudaqe jenbu 日本語、琉球語

キリシタン フェルナンデス訳(1563)  見つかっていない  フロイス訳(1613) 見つかっていない (ラサール訳(1811,1822)  漢訳) 愛知大学国研叢書第4期第5冊 ラサール訳『嘉音遵??菩薩之語』 ──研究と影印・翻刻── Lassar’s Chinese Version of the Gospel According to St. Matthew. A Study on the Original Texts and Transliterated Words: with an Appendix of a Facsimile and the Text 永井崇弘・塩山正純 編 「1807年、アルメニア人のキリスト者ラサール(Johannes Lassar)の手になる漢訳「マタイの福音書」は、インドのフォート・ウィリアム大学副学長のブキャナンより英国カンタベリー大主教へ謹呈された。 2世紀を経て今日、英国ランベス・パレス図書館に蔵されるその漢訳「マタイの福音書」を翻刻、影印。 音訳語を比較検討し、ラサールが漢訳した道程を探る。 漢訳聖書研究における貴重な史料を提供。」(ARMあるむ、新刊紹介、http://www.arm-p.co.jp/book_new.htmlより) ギュツラフ訳(1837)  ヨハネ  写真   S・W・ウィリアムス訳(1841,1850)  これに関する出版物  1   2  (筆者未読) ベッテルハイム訳琉球語(1855)  福音書  写真・一部テキスト 横浜浸礼教会版『新約全書』(1886) 写真PDF  W.J.ホワイトのよる漢字交じり表記の横浜第一浸礼教会刊『新約全書』 ゴーブル訳(1871)  ジョナサン・ゴーブル訳 『摩太福音書』の研究 「日本初のプロテスタント訳聖書」 ゴーブル訳「摩太福音書」 復刻版 明石書店 ヘボン/ブラウン共訳(1872,1873)  1872年:馬可傳、約翰傳 1873年:馬太傳 ブラウン訳(1879)  N・ ブラウン訳 新約聖書『志無也久世無志与』( 1879 ) PDF 「 解  説 N・ブラウン訳新約聖書『志無也久世無志与』(1879)のうちマルコ伝福音書の改訂版。 N.ブラウン(Nathan Brown.1807-86)はアメリカ・バプテスト連合の宣教師として1873(明治6)年来日

LaTeX Beamerでおしゃれなスライドが作れるカスタムBeamer Theme

イメージ
写真は HamaluikによるBeamer Theme    このQiitaのページの一覧が非常に参考になった。  https://qiita.com/htlsne/items/70cbb488e7a87cd9e228 でも、やっぱり学会で使うには、落ち着いたデザインがいいかな。デフォルトで入っているBeamer Themeなら、BerlinやSingapore、ほかの人が配布しているものなら Metropolis が気に入っている。 写真はOverLeafにあるMetropolisの サンプルPDF から

日本語のword segmentation 語分割、形態素解析、係受解析、統語解析などの覚書

使えそうな論文やサイトへのリンク集  JAPANESE WORD SEGMENTATION BY HIDDEN MARKOV   by C Papageorgiou · 1994 Character-to-Word Attention for Word Segmentation   by S Higashiyama 2020 Automatic Word Segmentation using Three Types of Dictionaries by Shinsuke Mori, Hiroki Oda  2011 岡 照晃: 「CRF素性テンプレートの見直しによるモデルサイズを軽量化した解析用UniDic ― unidic-cwj-2.2.0 と unidic-csj-2.2.0 ― 」, 言語資源活用ワークショップ2017発表予稿集, pp.143-152 (2017). 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007). UniDicなど 伝 康晴. 多様な目的に適した形態素解析システム用電子化辞書, 人工知能学会誌, Vol.24, No.5, pp.640-646 (2009). 統計的テキスト解析(3)~形態素と構文解析~ 非常に良いまとめ deplacyを用いた日本語文法解析 - Colaboratory Universal Dependenciesによる係り受け解析、安岡孝一氏 形態素解析システムJUMAN - 京都大学 言わずと知れた形態素解析システム 日本語形態素解析 Yahoo! JAPANによる。語分割・品詞解析・レンマ解析して、XML形式で解析結果を出力。 形態素解析 非常に良いまとめ 京都テキスト解析ツールキット(KyTea、「キューティー」) 単語分かち書きなど

PARADISEC

イメージ
https://catalog.paradisec.org.au/のスクリーンショット。 PARADISEC (パラディセック)はオーストラリアの三大学(シドニー大学、メルボルン大学、オーストラリア国立大学)が中心になって運営している、言語資料、特に危機言語の音声言語資料のアーカイブ。環太平洋の諸言語が中心。 PARADISECは、the Pacific And Regional Archive for Digital Sources in Endangered Culturesの略。  「私たちは、14,000時間の音声記録と2,000時間の映像記録を保持しています。これは125テラバイトに相当し、主に太平洋地域の1,281の言語を表しています。」らしい。 デジタルアーカイブで最近よく使われる、 FAIR 原則に基づくらしい。 FAIRとは、 Data should be Findable  データは検索可能でなければならない Data should be Accessible データはアクセス可能でなければならない Data should be Interoperable データは相互利用可能でなければならない Data should be Re-usable. データは再利用可能でなければならない あと、TRUST原則も用いているらしい(筆者はTRUST原則はここで初めて聞いた)。 T ransparency To be transparent about specific repository services and data holdings that are verifiable by publicly accessible evidence. R esponsibility To be responsible for ensuring the authenticity and integrity of data holdings and for the reliability and persistence of its service. U ser Focus To ensure that the data management norms and expectations of target user communities are met. S