- 服务
- ❶ 用户自建语料库支持
- ❷ 专家在线答疑服务
- ❸ 语料数据抓取和数据清理服务
- ❹ 语料分析和数据处理服务
- ❺ 语料云使用培训
语料云
“语料云100”科研公益项目 申报地址语料云——让语言变得简单

语料库是按照一定采样标准采集的电子文本集合,常用来研究一种语言或者语言变体。上个世纪80年代,语料库开始应用于词典编纂,并取得了显著的成果,其代表作是柯林斯系列词典。到目前为止,大部分词典的编纂都使用到了语料库。除了词典编纂之外,语料库在外语教学和科研中也得到了广泛的应用。
在大数据时代,语料库的规模也不断扩大,柯林斯语料库(Collins Corpus)的规模已经突破了45亿词。随着语料库数据规模的增大,传统的语料库软件已经难以满足需求,大数据语料的检索和挖掘成为迫切需要解决的问题。另外,语料库的建设和研究往往需要定制化的技术服务和专家指导。
在这样的背景下,汇智明德(北京)教育科技有限公司与柯林斯出版集团、北京外研在线教育科技有限公司通力合作,推出了集语料库建设与共享、语料库检索与挖掘、语料库科研支持与服务于一身的大数据语料库平台——语料云(Corpus Cloud)。

产品优势
- 功能强大、简单易用
- 同时支持科研和教学
- 支持英、汉、法、德、日等十几种语言
- 支持百亿词级语料库
- 支持多种可视化手段
- 支持基于机器学习的智能分析
- 支持科研需求定制开发
产品特点:
- 检索引擎先进:采用先进的Smart Query 检索引擎,支持词汇、语码、句法结构相结合的检索方式。检索语言简单易懂、功能强大,可轻松实现对复杂语言结构的描述,帮助初学者彻底摆脱正则表达式的困扰
- 检索功能升级:包含检索、统计、搭配计算、词表生成、关键词计算等常用功能,并结合最新的语料库研究趋势,对这些功能进行了升级和扩展,加入了对抽象结构和短语的支持
- 计算能力强大:检索百亿词级的语料,瞬间便可得到结果
- 语料库资源丰富:在中国大陆地区独家引进了柯林斯语料库(Collins Corpus)
- 支持自建语料库:用户只需将语料上传至语料云平台,便可轻松使用语料云的全部功能和服务
- 支持多语言语料:采用Unicode 编码设计,同时支持多种语言的语料
- 提供专家答疑咨询:专家团队为用户提供细致的答疑服务和咨询服务
- 提供定制化服务:具有良好的开放性和扩展性,可以为高校的语料库建设和语料库研究提供定制化技术服务和整体解决方案
产品功能:
语料库
服务
检索
统计
搭配
词表
关键词计算
文本分析
实用工具
- 语料库
- ❶ BNC、BROWN、FROWN、CROWN 等多种免费语料库
- ❷ 版权引进Bank of English、Collins Corpus 等多种大型商用语料库
- ❸ 多种学习者语料库
- ❹ 大量用户共享的语料库
- 检索
- ❶ 内置Smart Query 检索引擎,支持词汇、语码、句法结构和抽象符号混合的检索表达式
- ❷ 支持批量检索
- ❸ 支持多种排序方式,支持用户自定义排序
- ❹ 支持丰富的筛选功能
- ❺ 支持多种数据样式和显示样式
- ❻ 支持索引行手动标注、手动分类,支持多维标签体系
- ❼ 支持索引行智能归类、语义趋向分析和语义韵分析
- 统计
- ❶ 支持针对抽象结构的统计
- ❷ 结果显示支持Input、Word、Lemma 等8 种不同数据类型
- ❸ 支持重要性统计,可以计算出检索内容的重要程度
- ❹ 支持变量标记,可以单独对局部结构进行统计
- ❺ 支持柱状图、折线图、饼状图、词云等多种数据可视化手段
- ❻ 支持对比分析,可以对比不同命中内容的分布情况
- ❼ 支持智能报表,可以对检索内容的分布情况进行自动总结
- 搭配
- ❶ 支持针对单词、语码、短语、句法结构、混合抽象表达式的搭配计算
- ❷ 结果显示支持Input、Word、Lemma 等8 种不同数据类型
- ❸ 支持MI、MI3、T-Score、Z-Score、Log-Log、 Dice、Log-likelihood Ratio、Effect Size、Delta-p、Chi-Square、RevisedLog-likelihood Ratio、Revised Delta-p、Revised Chi-Square 等不同搭配强度计算方式
- ❹ 支持针对非连续结构搭配强度的计算
- ❺ 支持逆向搭配强度的计算,可以计算出配词对节点词的吸附强度
- ❻ 按位置和子库两个维度,提供多种数据分布报表
- ❼ 支持对比分析,可以对比不同搭配词搭配强度的分布情况
- ❽ 支持智能报表,可以对检索内容的搭配情况进行自动总结
- 词表
- ❶ 支持n-gram
- ❷ 支持不同数据类型
- ❸ 支持二次过滤
- ❹ 支持分布信息
- ❺ 支持重要性计算
- ❻ 支持柱状图、折线图、饼状图、词云等多种数据可视化手段
- ❼ 支持对比分析,可以对比不同词汇的分布情况
- 关键词计算
- ❶ 支持基于Word、Lemma 等不同数据类型的关键词计算
- ❷ 支持多种Chi-Square、Log-likelihood Ratio 等多种计算方式
- ❸ 支持Key Keyness 的计算
- 文本分析
- ❶ 支持音节数、Tokens、Types、Lemma Types、 TTR、STTR、平均词长、句子数、平均句长、从句数、T-Unit 数量、段落数量、平均段落长度等数据的文本基础信息分析
- ❷ 支持基于Nation 词族表、柯林斯分级词汇表和自定义词族表的词汇难度分析
- ❸ 支持句法复杂度分析
- ❹ 支持文本可读性分析
- ❺ 支持基于CEFR 的文本难度自动分级
- ❻ 支持基于不同Thesaurus 和维基百科术语列表的语义空间分析
- ❼ 支持智能报表,可以对分析结果进行自动总结
- 实用工具
- ❶ 词云工具
- ❷ 句法树和依存关系分析工具
- ❸ 近义词辨析工具
- ❹ 词汇- 语法描述工具
- ❺ 多种柯林斯权威词典
语料云QQ群:

扫一扫二维码,加入该群
产品咨询(试用申请):
- 邮箱:chenmeng@unipus.cn
- 电话:010-88819679