您现在的位置: 范文先生网 >> 教学论文 >> 语文论文 >> 正文

语料格式要求

时间:2009-5-8栏目:语文论文

语料格式要求
1.原始语料的电子文本。
1.1 文件夹名用来表示课文的出处
文件夹名称格式:地区_出版商_出版时间_版本代号_学科代号_年级
如: cn_rj_2001_6_yw_6
文件夹名语义:中国大陆/人民教育出版社/2001年出版/第六版/语文/六年级的语料。
1.2 文件以课文为单位存放在相应的文件夹下
课文以第几册第几篇为名保存。格式:第几册_第几篇.txt
如:1_10.txt
表示该课文是某文件夹下(某出处)的“第1册/第10篇课文”的文本。
2. 切词校对后的文本文件。即对原始语料分词并校对后的文本。存放格式同1,只是文件夹和文件名后分别加字母q。如:
cn_rj_2001_6_yw_6q表示是存放“中国大陆/人民教育出版社/2001年出版/第六版/语文/六年级的切分语料”的文件夹。
1_10.txt表示是“第1册/第10篇课文”的切分文本。
3. 初始库
3.1词目语料
库名为:地区_出版商_出版时间_版本代号;
表名为:学科代号_年级;
内容模式为:词条   词性   文件名。
即每个出版社每个版本建一个库,每个学科分年级建表,表下存放词条等。
如:
词条 词性 文件名
中国 n 1_10.txt
…… …… ……
其中文件名就是词或句子所出现的课文文件的名称。
3.2句子语料格式
库名为:地区_出版商_出版时间_版本代号;
表名为:学科代号_年级;
表模式为:句子  单句|复句  句型   文件名。
即每个出版社每个出版时间建一个库,每个学科分年级建表,表下存放词条或者句子等。
如:
编号 句子 单句|复句 句型 文件名
1 列车已到了北京。 d 陈述句 1_10.txt
2 他的家遭到了炸弹的袭击,他的生活和他一家人的生活受到威胁,但他决不退缩。 f 0 1-10.txt
3 你真聪明! d 感叹句 1-10.txt
…… …… …… …… ……
其中文件名就是词或句子所出现的课文文件的名称。句型只标注单句,复句一律标0。每篇课文每个句子指定一个编号,编号体现句子在原文中出现的顺序。
4. 结果数据表
4.1词语统计表:包括词条、词性、使用频度、出现文本数
如:
词条 词性 频度 出现文本数
中国 n 5000 300
……  …… ……

4.2句型统计表:
句型 句型频度 出现文本数
陈述句 10 10
…… …… ……


 

下页更精彩:1 2 3 4 下一页