引子
锡伯族语言文化有声数据库建设,系2013年由国家语委立项,江苏省语委提供资助和技术支持、由自治区民语委承担的项目,现已由自治区民语委委托给伊犁犁师范学院锡伯语言文字研究中心进行建设。本项目根据《国家中长期语言文字事业改革和发展规划纲要(2012~2020年)》中提出的“科学保护各民族语言文字,营造和谐语言生活”的要求,针对在信息化浪潮和社会强势语言文化的冲击下锡伯语的使用范围不断缩小、使用人群不断减少、使用功能不断弱化的实际,以及其生存环境不断恶化等现况,依据国家语委关于锡伯族语言文化有声数据库项目建设要求,依据中国语言资源有声数据库建设领导小组制定的《中国语言资源有声数据库调查手册·汉语方言》,依据《中国语言资源有声数据库建设江苏调查工作规范》,依据锡伯语亟需保护的现实需求进行建设。
本项目利用现代信息化手段,采用录音、录像和数字化等方式,建立锡伯语口语和说唱文化资源的有声数据库。通过本项目建设,为锡伯族语言文字与文化的抢救、保护和传承做出积极贡献,同时也为我国和世界满—通古斯语族语言文化的研究提供具有“活化石”价值的语言资料。
锡伯族语言文化有声数据库建设以数字化技术为支撑,对锡伯语口语的现状和精典文化进行调研,采集现阶段锡伯语口语和说唱文化的第一手有声资料,全面科学地描写和展示锡伯语口语和说唱文化的现实面貌,以数字化手段对所录入的有声数据进行整理加工,建立锡伯族语言文化有声数据库管理系统,达到长期存储和使用的目标。项目建设充分借鉴江苏语委建立汉语方言有声数据库的工作经验和技术实现方法,充分发挥政府主管部门、高等院校和专家的作用,严格按照技术规范和工作规范,采用录音、录像手段,采集和记录在日常生活中使用的锡伯语口语和说唱文化资源,力求比较全面地反映现阶段锡伯族社会生活中的锡伯语口语和说唱文化的实态。
一、内容建设
锡伯族语言文化有声数据库的内容建设主要有三项: 一是以锡伯语口语为对象,通过录音录像,记录有代表性的锡伯语口语语音、单词、词汇、语法句子、话语,建立锡伯语口语有声数据库和说唱文化资源数据库;二是在ELAN数据库软件上建立锡伯语口语有声数据库档案(音频为主)和说唱文化资源数据库档案(视频为主);三是研发锡伯族语言文化有声数据库管理系统,实现锡伯语录音、锡伯文输入、编辑、排版、存储、数据交换和数据管理等功能。
一、田野调查
做好田野调查是做好锡伯语有声数据库的重要前提,本项目以锡伯语重点使用地区察布查尔锡伯自治县为调查对象,在调查了解当地人文地理环境的同时,通过实地调查,搜集家庭生活生活中的锡伯语、工作语言中的锡伯语、社交活动中的锡伯语,不同年龄、性别、职业人员的锡伯语,小学至初中锡伯文教学中的锡伯语、服务行业的锡伯语以及民间故事、民歌、萨满歌、戏曲、念说等精典文化作品中的锡伯语口语资料。
通过调查,物色若干名专家和发音人,对发音人进行技术测试,选择录音、摄像场所,对其进行技术测定,并在专业录音室进行录音和摄像,初步建立起锡伯语口语的语料库和精典文化资源数据库。
二、录音录像
(一)口语语音
1.口语元音:按具体词例分别记录8个元音的前元音、央元音、后元音、宽元音、窄元音、圆元音、展元音的发音调。
2.口语辅音:按具体词例分别记录28个辅音的清辅音(清塞音、清送气塞音、清擦音、清擦塞音、清擦送气塞音)、浊辅音(浊擦音、鼻音、边音、颤音)发音调和变音(同一词例的书面语发音调与口语中的变音调比较)的发音调。
3.具体词例中出现重音调(重音调一般在说话人的第四个音节中出现),则予以记录。
(二)口语发音要求
1.锡伯语口语音部分的发音,发音人必须按照口语的发音习惯及其元音读法、辅音读法、音节读法、词语读法、词缀读法、借词读法、数字读法和重音读法,充分体现锡伯语口语的元音、辅音省略或脱落,语音弱化、变音、转音等表达习惯;
2.“阿字首”(121个单音节)分别按元/辅元的组成方式进行发音。单音节和单音节中间要有稍微的停顿。发音要清晰、准确,保持中等发音速度;
3.“十二字首”(约1200多个双音节)按元元式/辅元式/辅元辅式的组成方式进行发音,发音要清晰、准确,保持中等发音速度;
4.切音音节的发音,首先将两个音节的发音读出来,然后合成为一个音节进行发音。发音要清晰、准确,保持中等发音速度;
5.复音音节的发音(元辅元辅式双音节),省略末后元音音节的发音,只发一个音,保持中等速度。
(三)词汇的选择与发音要求
1.汇词应选择常用的、活态的、包含各个元音音位和辅音音位的词汇;
2.所选词汇要充分体现元音音位和辅音音位的发音特征;
3.由两个或两个以上独立词合成的语词,要注意个别词的语音转换情况,并按语音转换情况发音;
4.传统借词,按传统方式发音。直接音译借词,按直接音译发音。混合借词,按其混合语音表达方式发音。
(四)句子的选择与发音要求
1.选择名词、动词、形容词、副词、代词、借词等词类及其联句、偏正句、动宾句、主谓句、补谓句、后置句、方位句、肯定句、否定句、疑问句、祈使句、感叹句等语法结构的句型;
2. 将各类句子的语法特点表达出来,要有抑扬顿挫的节奏感。表达要完整、清晰、准确;
3.保持正常说话方式,保持中等说话速度。
(五)会话选择与发音要求
1.口语发音人选择条件:发音人必须在当地出生长大,家庭语言环境单纯(父母、配偶均是当地锡伯人),未在外地长期居住过,能说地道的锡伯语口语;
2.具有较强思维能力、反应能力和语言表达能力,发音洪亮清晰并会说标准的锡伯语;
3.经培训后能够完成项目要求的发音任务。
(六)口语发音系统录音内容
1.阿字首单音节发音(传统发音方式):
aeiou/naneninonu/kagaha/kogoho/kvgvhv/babebibobu/papepipopu/sasesisosu/xaxexixoxu/tada/tede/tidi/todo/tudu/lalelilolu/mamemimomu/cacecicocu/jajejijoju/yayeyoyu/kegehe/kigihi/kuguhu/k'ag'ah'a/k'og'oh'o/rareriroru/fafefifofu/wawewiwowu/c'ac'ec'ic'oc'u/zazezizozu/r'ar'er'ir'or'u/sycyjy。
2.十一字首约1429个音节发音(传统发音方式,略)。
3.切音的发音(传统发音方式,42个切音,略)。
(七)口语词汇系统录音内容
1.500个单词口语发音录音(略);
2.3000条常用词汇口语发音录音(略);
3.具有拟声、拟象功能的约800条词语口语发音录音(略);
4.1000个语法结构句型口语发音录音(略);
5.200条句子人际会话口语问答式会话录音(略)。
五、记录
(一)记音
1.口语元音的记音:按具体词例分别记录8个元音的前元音、央元音、后元音、宽元音、窄元音、圆元音、展元音的发音调。
2.口语辅音的记音:按具体词例分别记录28个辅音的清辅音(清塞音、清送气塞音、清擦音、清擦塞音、清擦送气塞音)、浊辅音(浊擦音、鼻音、边音、颤音)发音调和变音(同一词例的口语变音调)的发音调。
3.具体词例中如出现重音调(重音调一般在说话人的第四个音节中出现),则予以记录。
4.具体词例选择能够全面反映上各语音发音调的词例。上各语音的发音要求,统一作为发音人的发音要求,不再作其他条件设置。
(二)用字与转写符号
1.所有录音资料一律使用锡汉文对照、与与转写音标并列方式记录建档。字体采用锡伯文OpenType白体3号字,汉文采用宋体5号字。其他标记符号采用汉语通用符号。
2.制定锡伯语口语的罗马字母转写符号和国际音标,两者并用,用于标记语音、词汇、句子和精典文化作品。
3.所有文字和符号均横向排列,依次为:汉译词/锡伯文录词/转写音标(词表、词汇、句子等),以便比对。
4.唱歌、故事、念说和阅读文章等用锡伯文记录,竖向排列,附以汉译文。
5.锡伯语口语的语音、词汇、语法句型、简单对活及文化精典作品唱歌、故事、念说和阅读文章等,用锡伯文记录时,应按《现代锡伯文学语言正字法》的正字要求书写。
(三)资料整理
1.填写模板表:参照《中国语言资源有声数字库调查手册·汉语方言》模范板表,编制锡伯语的模板表。
2.校对:电脑数据、文档和人工校对各三遍。
3.文件归档:
(1)需交文件(Excel、word文件,电子版);
(2)锡伯文需交文件,按锡伯文竖直显示格式制作电子版;
(3)需交文件制作口语格式的电子版表格。
5.文件命名:编制锡伯语口语的文件,内容包括代码和名称、录音文件、模板表、视频文件、照片文件等;
6.调查表:调查点、时间、发音人等项调查表,参照《中国语言资源有声数字库调查手册·汉语方言》,按锡伯语口语格式编制。
四、锡伯语口语资源库建档
(一)建立资源总目录
在ELAN数据库软件上建立以音频为主要格式的锡伯语口语资源库档案,建立其一级、二级、三级目录。三级资源目录排列内容:名称、语音库 (音系、单句、词汇、语法句子、会话)、音频(分钟)、参考数据量(GB)。
(二)数据库资源规范
1.所有语料全部通过ELAN处理、存储、显示;
2.数据库文档应体现当地人文地理环境、调查地点、调查对象、调查内容、调查方法、录音等总体情况;
3.建立本地专家、口语发音人、资料翻译者的个人档案;
4.填写调查表,对所有调查的对象,均填写调查表。
(三)调查表
1.亲临现场调查;
2.记录务求具体、真实、不带个人好恶,忠实反映锡伯族语言文化的现状;
3.对调查地点的人文地理环境、发音人、讲述者要特别予以关注,对其当下的语言状况予以记录;
4.对被选定的发音人、演唱者,要着重采访和记录,并要在调查表上进行详细地登记和编号;
5.记录下来的每一份材料,都要在文本的末尾署上下列几种背景材料:发音人、讲述者、演唱者的姓名及男女、民族、身份、年龄、文化程度、简历、传承、居住地及联系地址等;采录者(包括翻译者)、随行者的身份、工作单位、文化程度、联系地址;采录地点、采录年月日等;
6.调查人员要分工记录、录音、录像;
7.调查与重点搜集的资料相结合。
(四)语料库标注
在ELAN数据库软件上,对锡伯语口语的语音系统、单词、词汇、语法句子和会话进行罗马字母转写、国际音标转写及锡汉/汉锡双向对译的词性标注、语法标注、会话标注。了
(五)语料库显示和存储
在同一文档上依次标注、显示和存储:汉文、锡伯文(在研发第三大模块即数据库管理系统时解决锡伯文的导入、导出及标注、显示和存储问题)、罗马字母、国际音标。
五、锡伯族说唱文化作品精品建档
(一)建立资源总目录
在ELAN数据库软件上建立以视频为主要格式的锡伯族说唱文化作品的一级、二级、三级目录。三级资源目录排列内容:名称、语言、文本(千字)、录制(出版)单位、音频(分钟)、视频(分钟)、图片(张)、参考数据量(GB)。可与锡伯语口语录音语料库目录合并共建总目录。
(二)分类建档
1.民歌系列;2.萨满歌系列;3.婚礼歌和习俗歌系列; 4.朱伦呼兰比和更心比系列; 5.汗都春艺术平调和越调系列;6.民间故事系列;7.创作歌曲系列;8.文艺演出系列;9.相关文化作品系列。
(三)调查表
1.调查地区、调查者、录制者、填表时间;2.对以已录制和转录的说唱文化作品,按分类建档要求进行梳理、整理和分类;3.演唱人演唱的每首歌或讲述的每则故事均各填写一张调查表;4.记录方式:文本、录音、录像图像、附件;5.演唱者的演唱语言、演唱曲调、录音、录像地点、时间、设备、场景、环境、资料出处、内容提要、歌手简要采访录等;6.演唱人调查表:姓名、性别、民族、出生年月、籍贯、文化成度、家庭成员、供职单位、从事专业、从艺时间、简历、主要艺术成就和代表作、主要内容摘录、联系方式等。
六、锡伯语有声数据库管理系统
(一)研究的主要目标和任务
锡伯语有声数据库管理系统研究的主要目标是建立锡伯语、汉语有声数据库。主要目标任务有:1.研发编写竖排的锡伯文输入、输出和编辑处理控件;2.研发编写拼音输入、输出和编辑处理控件;3.研发编写锡伯文转写标音输入、输出和编辑处理控件;4.研发编写播放、录制管理模块;5.研发编写锡伯语有声数据库录入和库管理系统。
(二)研究实际达到的目标
1.研发支持国际标准编码的锡伯文、汉文、锡伯文转写和拼音的输入输出处理控件;
2.SQL命令不支持国际标准编码锡伯文环境下,研发了锡伯文查询和统计模块;
3.研发播放、录制模块;
4.研发锡伯语有声数据库录入和管理系统。本系统中实现用户管理,用户切换,词条添加,编辑,查询,重复记录查看,浏览,统计,数据库备份,数据库恢复,数据导入,数据导出等等功能。
(三)数据库管理系统主要实现的功能
单机环境下的锡伯文、汉文、锡伯文转写、拼音平衡数据库录入和管理系统,本系统包含系统管理、数据管理、统计、数据库维护、数据导入导出和帮助等主要功能模块。各功能模块提供如下功能:
1.系统管理包含用户管理(新增用户、浏览用户信息、更改口令),切换用户等功能。
2.数据管理包含锡伯文、汉文、锡伯文转写、拼音插入(追加方式添加、条件方式添加(条件方式添加是时间范围、词条语种、操作用户等条件来插入词条),数据编辑(时间范围、词条语种、操作用户等条件来编辑词条),数据查询(时间范围、词条语种、操作用户、词条的模糊条件等条件来查询词条),数据浏览(时间范围、词条语种、操作用户等条件来浏览和打印词条),重复记录浏览(词条语种、学科类型等条件来查出重复记录、编辑和打印等)等功能。
3.统计包含全部统计、条件统计等功能。条件统计是操作用户、时间范围等条件来统计有词条的、没有词条的词条。
4.数据库维护包含数据备份和数据恢复等功能。数据备份组成备份到管理系统目录和备份到选择目录等两大功能。数据恢复是组成从管理系统目录恢复和从选择目录恢复等两大功能。
5.数据导入导出包含数据导入和数据导出等功能。数据导入是按照导入的输入文件名称、分隔符号、要导入的起始行、允许重复记录、不允许重复记录、要导入列的对应关系等条件来导入大量的数据。数据导出是按照语种时间范围、词条语种等条件符合的词条导出到指定的Unicode 编码的文本文件。
6.帮助文件提供使用帮助功能。
(本文根据2013年新疆民语委制定的锡伯语言文化资源有声数据库建设方案撰写)