PARADISEC


https://catalog.paradisec.org.au/のスクリーンショット。


PARADISEC(パラディセック)はオーストラリアの三大学(シドニー大学、メルボルン大学、オーストラリア国立大学)が中心になって運営している、言語資料、特に危機言語の音声言語資料のアーカイブ。環太平洋の諸言語が中心。


PARADISECは、the Pacific And Regional Archive for Digital Sources in Endangered Culturesの略。 


「私たちは、14,000時間の音声記録と2,000時間の映像記録を保持しています。これは125テラバイトに相当し、主に太平洋地域の1,281の言語を表しています。」らしい。

デジタルアーカイブで最近よく使われる、FAIR原則に基づくらしい。

FAIRとは、

Data should be Findable  データは検索可能でなければならない
Data should be Accessible データはアクセス可能でなければならない
Data should be Interoperable データは相互利用可能でなければならない
Data should be Re-usable. データは再利用可能でなければならない


あと、TRUST原則も用いているらしい(筆者はTRUST原則はここで初めて聞いた)。

TransparencyTo be transparent about specific repository services and data holdings that are verifiable by publicly accessible evidence.
ResponsibilityTo be responsible for ensuring the authenticity and integrity of data holdings and for the reliability and persistence of its service.
User FocusTo ensure that the data management norms and expectations of target user communities are met.
SustainabilityTo sustain services and preserve data holdings for the long-term.
TechnologyTo provide infrastructure and capabilities to support secure, persistent, and reliable services.

(https://www.paradisec.org.au/about-us/principles-for-data-management/より、元はBarwick and Thieberger (2018) 

Linda Barwick & Nick Thieberger. 2018. Unlocking the archives. Pp. 135-139 in Vera Ferreira & Nick Ostler (eds) Communities in Control: Learning tools and strategies for multilingual endangered language communities. Proceedings of the 2017 XXI FEL conference. Available here.


この原則に基づくため、データにはCC BY-SA 4.0 (Creative Commons Attribution-ShareAlike 4.0 International License)のライセンスを付している。権利者の名前を書いて、同じライセンスの中で用いるならば、二次利用可能。



https://www.paradisec.org.au/

コメント

このブログの人気の投稿

日琉諸語訳聖書の電子テクスト(できるだけ二次利用可能で加工しやすいもの)について(なかったら写真やPDF) arudaqe jenbu 日本語、琉球語

深層学習と言語モデルについて Google Colaboratory

日本語のword segmentation 語分割、形態素解析、係受解析、統語解析などの覚書