中国产经网

产经行业的
探索与发现
更多行业干货分享,关注中国产经网Www.chinaice.cN

“云藏”:引领藏文步入搜索引擎时代

更新时间:2016-10-21 11:04点击:

“藏文用户‘云藏’一下,即可搜到各种需要的信息。”日前,由青海省海南藏族自治州主导实施,西北民族大学、北京线点科技有限公司合作研发,拥有完全自主知识产权的全球首个藏文搜索引擎——“云藏”(域名为)正式上线运行。这标志着有1300多年规范使用历史的藏文,进入了“所需即所得”的搜索引擎时代。

“藏文版百度”,基本具备搜索引擎的全部功能

“‘云藏’是一个集新闻、网页、图片、视频、音乐、百科、文库、知道8个板块为一体的大型藏文系统文化网站,已上传百科词条1.2万条、文档3266部、问答1.5万条,堪称‘藏文版百度’。”据“云藏”藏文搜索引擎总监、青海省海南藏族自治州藏语文工作委员会办公室主任才洛介绍,目前,“云藏”搜索已完成开发网页采集、全文搜索、内容管理模块、自动分词、搜索网站前台、网络爬虫等系统架构建设,基本具备搜索引擎的全部功能。

“云藏”系统平台建设始于2013年4月,由青海省海南藏族自治州藏文信息技术研究中心负责,是青海省少数民族事业“十二五”规划中藏文信息化建设的重要组成部分。该系统研发团队现有150余名工作人员,分属藏文数据库建设组、语言智能处理组和技术组,其中藏族员工比例达87%以上。

据“云藏”搜索引擎系统技术总监、西北民族大学中国藏文典籍全文数字化研究所教授多拉介绍,语言智能信息处理是“云藏”的核心技术,能达到藏文词汇级搜索。仅“云藏”新闻搜索系统就涵盖13个频道、200多家国内藏文网站,可提供海量藏文搜索。

藏文自动分词与语言分析系统的开发,是“云藏”搜索引擎品质的关键所在,其中的多项开发内容都属于藏文信息处理领域的创新性研发和应用,填补了国内多项空白。

确保藏文信息安全,惠及200万藏文用户

“‘云藏’建成后,将为藏文信息安全、国内外涉藏舆情监测以及重要舆情分析提供可靠的参数和依据。”才洛说。

目前,我国国内主要的搜索引擎如百度、搜狗等,无藏文搜索功能;国外搜索引擎如谷歌、雅虎以及微软的bing搜索引擎等,只支持简单的藏文搜索。谷歌、雅虎等数据索引库在国外,检索到的信息在准确性和内容方面有受制性,出自国内的有效信息不能被及时检索,因此,它们提供的有关藏文化知识准确度不高、信息量不够。

“云藏”作为全球首个藏文智能搜索引擎,随着平台功能的不断完善和升级,将对藏区舆论引导、藏语文信息化建设及藏文化发展产生深远的影响。

据统计,“云藏”上线试运行期间已有超过34个国家和地区的网民使用,点击量突破1000万次。“云藏”正式上线运行后的短短几天,点击量就突破300万人次,搜索范围涉及中国、美国、印度等26个国家,网民从内容质量、浏览体验、可访问性等角度对“云藏”给予了高度评价。

“‘云藏’搜索引擎在长达一年多的上线测试中,对系统的可靠性、稳定性和实际应用效果进行了验证。结果表明,‘云藏’搜索功能齐全、检索速度快、查全率和查准率达到95%,具备了其他文字搜索引擎功能的一贯优势。”才洛表示,据初步估算,“云藏”运行初期,青、藏、甘、川、滇五省区的藏文用户数量约为120万,随着搜索引擎产品的推广和宣传,用户量将达200万。

立志建全球最大的藏文电子“图书馆”

据介绍,“云藏”的研发分多期进行。目前,一期、二期建设工程已完工,三期建设正在紧张筹备中,主要建设内容包括框架语义知识库的完善,“云藏”浏览器、词典、输入法等藏文工具类软件的开发。未来,研发团队还将致力于大规模实现藏文文献数字化。

“开发藏文数据库,把卷帙浩繁的藏文文献典籍数字化,是‘云藏’建设的重头戏。”谈到今后的发展,才洛说,“云藏”实施了“云藏”百科、文库和问答等共享工程,还积极组织团队进行藏文数据编录工作,力争用5到10年时间建成全球最大的藏文电子“图书馆”。

“‘云藏’在藏文中意为‘博学的老师’,单字又为‘全面抓取’之意,该搜索引擎建成后,不仅能满足藏文网民个性化的检索需求,还将推动藏文信息全方位融入互联网世界。有网络的地方就有‘云藏’。”才洛说。

目前,“云藏”搜索引擎研发领域内藏文信息处理技术还未完全成熟,存在着诸多问题和不足,部分功能和内容仍处于调试和扩充阶段,需要不断地改进和完善。