. 基础文本处理组件
包括分词、词性标注、依存句法、文本向量表示等基础服务组件
. 一站式文本处理功能组件
预处理组件、算法组件、模型管理组件、微服务组件
. 基于场景交互类自然语言服务
包括关键词提取、实体抽取、文本相似度、文本分类、序列分类、检索分类等
. 分布式训练平台
打通数据管理、分组训练、依赖训练等
产品功能
NLP平台部分应用场景及组件介绍
智能推荐 |
文本聚类 |
自动分类 |
相识度计算 |
关键词提取 |
文本聚类 |
协同过滤 |
|
语境拓展 |
流行度计算 |
关联规则 |
|
用户画 像 |
文本挖掘 |
数据预处理 |
标签规则 |
词性标注 |
数据统计分析 |
数据集成 |
|
文本分类 |
画像建模 |
关键词提取 |
|
标签抽取 |
标签体系 |
|
|
舆情监控与预警 |
观点抽取 |
实体识别 |
词性分析 |
标签抽取 |
实体链接 |
极性分析 |
|
相似度计算 |
实体消岐 |
词性标注 |
|
相似度分析 |
情感分析 |
文本聚类 |
|
热词分类 |
情感识别 |
关键词提取 |
|
文本聚类 |
敏感信息识别 |
自动识别 |
|
报告摘要 |
中文分词 |
文本特征抽取 |
实体抽取 |
观点抽取 |
关键词提取 |
文本提取 |
|
标签抽取 |
自动摘要 |
文本聚类 |
|
报告生成 |
实体识别 |
实体链接 |
句法分析 |
语义解析 |
文本对比 |
自动摘要 |
|
文本提取 |
文本纠错 |
文本聚合 |
核心优势
一站式拖拉分布式训练平台,傻瓜式训练自动选择最优算法及模型,降低AI门槛
涵盖文本处理全链条算法
自带金融行业预训练模型,对于一般场景适当微调便可上线服务
功能服务
搜索引擎、智能问答、知识图谱、文档分类、舆情分析、观点抽取、自动评卷、机器翻译、机器协作
数据工具
词库、词网、语料库、标注集、序列标注、词性标注、句法标注、分类标注
NLP平台总体架构
基础服务
语音识别、中文分词、词性标注、文本聚类、句法分析、依存分析、关系抽取、文本分类、文本摘要、文本相识度、词向量、文本断句、情感分析、实体抽取、属性抽取
算法
HMM、CRF、MEMM、LDA、SVM、CNN、RNN、LSTM
应用服务
智能客服(机器人)、智能搜索、文本挖掘、智能推荐、信息抽取
平台技术特点
三种主流框架集成
封装Tensorflow , Theano和MXNet三大主流深度学习框架,并对于框架中常见的机器学习算法进行性能和稳定性提升,同时支持多种常见算法的流式预测,此外,用户可以通过Python、C++等语言进行自定义算法的封装,轻松扩展现有算法
企业级统一NLP智能平台
通用的、集成的NLP平台,能够帮助企业级用户快速实现人工智能的落地,所有基于NLP的应用都可以根据统一的标准和方法进行开发
高效的交互式体验
快速的数据探索、迭代的建模过程,缩短建模周期,模型能更及时地在生产环境进行仿真测试,提供企业级支持包括:多租户、权限管理、安全控制、团队协作、模型共享、分布式调度等
完善的二次开发
用户可以根据需求进行二次开发,平台提供定制API的标准步骤和流程,用户可以根据需求定制新的API,进行算法组合,以及特定场景的算法优化等
一站式图形化开发环境
API的训练可以通过拖拽的方式进行,直观可视,后续整个流程都可以通过拖拽式操作包括:数据导入、数据探索与预览、数据预处理、特征工程、算法选择、模型训练、模型发布、模型管理
基于海量数据训练的通用API
基于海量数据并经过实际应用检验的API算法,包括四个层面,基础功能,单文本分析、多文本分析和理解交互,随着API的应用,语料数据不断迭代和积淀,形成宝贵的数据资产闭环效益,缩短应用的构建周期,提升应用的稳定性
词向量
TFIDF、Word2Vec、 GloVec、 ELMO、 BERT
文本相似度
DSSm、 MVLSTM、MATHCPYRAMID
文本摘要
TextRank、 LDA、LSTM-Attension
预处理
繁体简体转换、时间、数字、金钱、保险、理财、关系实体替换、同义词替换、特殊字符处理
文本分类
机器学习:叶斯、 SVM、逻辑回归 深度学习: FastText、 TEXTCNN、 RNN_ATTENTION、BERT
平台算法组件
关键词提取
TF-IDF、 TextRank、TextRank+PageRank
命名实体识别
CRF、 BERT+BiLSTM-CRF
IDCNN-CRF
分词
机械分词:最⼤匹配法
统计分词: HMM、 CRF
文本聚类
文本相似度、词向量、文本聚类
极性分析
情感分析
文本挖掘
关键词提取、文本分类、文本摘要
句法分析
句法分析、依存分析、主谓宾提取
平台服务组件
基本处理
语言识别、中文分词、词性标注、命名实体识别
知识抽取
实体抽取、关系抽取、标签抽取、事件抽取
任务管理
场景管理
业务功能
语料管理
训练及验证
标注管理
数据预处理
模型管理
场景 |
组件 |
||
智能客服(聊 天机器人) |
中文分词 |
语义依存分析 |
状态跟踪 |
词性标注 |
指代消解 |
语义槽填充 |
|
实体识别 |
问题分类 |
对话决策 |
|
语义解析 |
归一化 |
命名实体识别 |
|
知识检索 |
文本纠错 |
依存句法分析 |
|
实体链接 |
答案检索 |
语义角色标注 |
|
意图识别 |
语义匹配 |
重排序 |
|
场景引导 |
答案排序 |
会话管理 |
|
答案融合 |
多渠道多答案 |
|
|
智能搜索 |
关键字收集 |
意图识别 |
相似联想 |
拼音识别 |
上下文语境识别 |
搜索纠错 |
|
汉字转拼音 |
同义词识别 |
全文检索 |
|
拼音缩写提取 |
知识关联 |
|
|
合同文档自动解析 |
中文分词 |
自动分类 |
句法分析 |
词性标注 |
文本聚类 |
相似度计算 |
|
词频统计 |
实体识别 |
特征词提取 |
|
词法分析 |
关键词提取 |
摘要提取 |
|
HR人岗精准匹配 |
实体识别 |
自动分类 |
标签抽取 |
文本提取 |
自动归档 |
|
|
文档查重 |
实体识别 |
文本过滤 |
标签抽取 |
文本提取 |
相似度计算 |
|
|
客户意见分析 |
语言识别 |
文本分类 |
依存分析 |
中文分词 |
文本聚类 |
关键词提取 |
|
词向量 |
词性标注 |
文本关联度计算 |
|
句法分析 |
文本摘要 |
关系抽取 |
|
命名实体识别 |
概念标注 |
情感自动分析 |
|
智能审阅 |
关键信息提取 |
文本分类 |
实体识别 |
中文分词 |
序列标注 |
文本对比 |
|
文本聚类 |
智能抽取 |
文本纠错 |
NLP平台部分应用场景及组件价值
服务热线:400-8304-999
官方微信订阅号
全民公社官方微信订阅号