http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html

news/发布时间2024/5/23 21:13:59

北京大学CCL语料库简介

语料库网址: http://ccl.pku.edu.cn:8080/ccl_corpus 

CCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。

CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实

CCL语料库中的中文文本未经分词处理。检索系统以汉字为基本单位

1 使用说明

2 语料库规模与分布

 

3 如何引用CCL语料库?

中文

詹卫东、郭锐、常宝宝、谌贻荣、陈龙,2019,北京大学CCL语料库的研制,《语料库语言学》2019年第6卷第1期,总第11辑,pp.71-86。

詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库,网址:http://ccl.pku.edu.cn:8080/ccl_corpus

English

ZHAN Weidong, GUO Rui, CHANG Baobao, CHEN Yirong & CHEN Long, 2019, The building of the CCL corpus: Its design and implementation, Corpus Linguistics, 2019, Vol.6, No.1, pp.71-86

ZHAN, Weidong, GUO, Rui, CHEN, Yirong, 2003, The CCL Corpus of Chinese Texts, Available online at the website of Center for Chinese Linguistics (abbreviated as CCL) of Peking University, http://ccl.pku.edu.cn:8080/ccl_corpus

4 版本发展

序号 版本 总规模① 现代汉语 古代汉语 汉英双语
(1) 2004版 107,791,180 (1亿字符) 85,398,433 字 22,392,747 字
(2) 2006版 未统计 219MB(229,700,435字节) 196MB(206,222,888字节) 69.3MB(71,618,853 字节)
(3) 2007版 未统计 603MB(632,428,846字节) 同上 同上
(4) 2009版 未统计 695MB 397MB 同上
(5) 2014版 783,463,175(7.8亿字符) 581,794,456(5.8 亿字符) 201,668,719(2亿字符) 中文字数:6,176,546(600万字)
英文词数:3,934,609(300万词)
(6) 2024版 5,841,676,206(58.4 亿字符) 4,746,907,429(47.5 亿字符) 1,094,768,777(10.9 亿字符) 中文字数:192,057,581(1.9亿字)
英文词数:103,578,166(1亿词)


注① 指现代汉语加古代汉语的字数规模。2024版CCL语料库若将汉英双语对齐语料中汉语语料统计在内,总规模达到60亿字

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.jwkm.cn/p/44070205.html

如若内容造成侵权/违法违规/事实不符,请联系宁远站长网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

Thinkphp5.x全漏洞复现分析

基础知识 命名空间和子命名空间 我们可以把namespace理解为一个单独的空间,事实上它也就是一个空间而已,子命名空间那就是空间里再划分几个小空间,举个例子: <?phpnamespace animal\cat; class cat{public function __construct(){echo "meow"."\n"…

退出到restart application设置

在主题中加一个退出按钮。 点击退出按钮,增加退出事件中加入如下语句: ModalResult:=mrCancel;

CAN总线原理_学习

随着通信技术的发展,现今通信方式和协议五花八门,但CAN通信仍然是车载网络最安全可靠且应用最广的技术之一。过去,汽车通常采用常规的点对点通信方式将电子控制单元及电子装置连接起来,但随着电子设备的不断增加,导线数量也随之增多,采用CAN总线网络结构,可以达到信息共…

Hommie

Hommie靶机IP:192.168.56.115端口扫描 nmap -Pn -sV -sC 192.168.56.115PORT STATE SERVICE VERSION 21/tcp open ftp vsftpd 3.0.3 | ftp-syst: | STAT: | FTP server status: | Connected to ::ffff:192.168.56.101 | Logged in as ftp | TYPE: AS…

回归问题求解 python---梯度下降+最小二乘法

MSE = 1/m * ∑i=1m(yi−y^i)2 a = [1., 2., 3., 4., 5., 6., 7., 8., 9.] b = [3., 5., 7., 9., 11., 13., 15., 17., 19.] points = [[a[i],b[i]] for i in range(len(a))]lr= 0.001 eps = 0.0001 m = len(points) last_error = float(inf) k = b = grad_k = grad_b =…

OO第一次博客作业

前言 前三次作业都是实现一个小型的答题判题程序,后一题都是在前一题的增加了特定的需求。 在这三次题目中,频繁的使用到了正则表达式,还使用到了map类,题量适中,在上一次的基础上进行迭代,难度也是一次比一次大,需求变得更加细致,对于程序健壮性要求更高,同时也要慢慢…