语汇网
媒体语言语料库(MLC)2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。为方便广大研究者使用,2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料,可以进行以词为单位或以词性及词性串为单位的词串检索。本语料库包括2008至2013六年的3.4万个广播、电视节目的转写文本,总字符数为2.4亿,总汉字数为2亿字次。所有文本都进行了分词和词性标注,共计1.36亿词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。
栏目导航
- 永利网站
推荐产品
联系我们
- 电话:
- 手机:
- 地址: