|
| 語料庫的分類 | |||
| 作者:admin 文章來源:本站原創(chuàng) 點擊數(shù): 更新時間:2011-11-16 |
|
||
|
說明:引用此文請注明出處,并務請保留后面的有效鏈接地址,謝謝!
語料庫的分類 語料庫根據(jù)收錄語料的內(nèi)容和屬性不同,通常可分為以下四種類型: ■異質(zhì)型語料庫 異質(zhì)型語料庫(Heterogeneous corpus)指沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料。如英國牛津大學計算中心的OTA文本檔案庫。 ■同質(zhì)型語料庫 同質(zhì)型語料庫(Homogeneous)指只收集同一類內(nèi)容的語料。例如收集與軍事的文本的美國TIPSTER語料庫。另外,還有國內(nèi)的新華社“新聞語料庫”、北京大學計算語言學所與富士通公司合作開發(fā)的“日報語料庫”、香港城市大學語言資訊中心的中文五地區(qū)共時語料庫(Linguistic Variety in Chinese Communities)等。 ■系統(tǒng)型語料庫 系統(tǒng)型語料庫(Systematic)指根據(jù)預先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實。如:北京語言大學的“現(xiàn)代漢語語料庫系統(tǒng)”、北京語言大學與香港理工大學合作的“現(xiàn)代漢語語料庫”、北京語言大學與清華大學合作的“現(xiàn)代漢語語料庫”、清華大學中文系的“清華TH語料庫”、語言文字工作委員會語用所的“現(xiàn)代漢語語料庫”等。 ■專用型語料庫 專用型語料庫(Specialized)指只收集用于某一特定用途的語料。如:美國卡耐基-梅隆大學為兒童心理語言學而的CHILDES語料庫、為珍藏人文科學著作和資料而的美國北美人文科學語料庫等。 |
|||
| 文章錄入:admin 責任編輯:admin | |||
| 【發(fā)表評論】【加入收藏】【告訴好友】【打印此文】【關閉窗口】 | |||
|
|
||||||
| | 網(wǎng)站地圖 | 版權申明 | 設為首頁 | 加入收藏 | 會員中心 | 取回密碼 | 友情鏈接 | 用戶留言 | 管理登錄 | ||||
|
||||