1. 数据标注定义
数据标注是对未经处理的语音、图片、文本、视频等数据进行加工处理, 并转换为机器可识别信息的过程。原始数据一般通过数据采集获得, 随后的数据标注相当于对数据进行加工, 然后输送到人工智能算法和模型里完成调用。
2. 为什么要做数据标注?
目前主流的机器学习方式是以有监督的深度学习方式为主,此种机器学习方式下对于标注数据有着强依赖性需求,未经过标注处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标注处理后的数据,成为结构化数据才能被算法训练所使用的。
3. 数据标注的主要类型
l 计算机视觉
包括矩形框标注、关键点标注、线段标注、语义分割、实例分割标注、ocr标注、图片分类、视频标注等。
l 语音工程
包括ASR语音转写、语音切割、语音清洗、情绪判定、声纹识别、音素标注、韵律标注、发音校对等。
l 自然语言理解
包括ocr转写、词性标注、命名实体标注、语句泛化、情感分析、句子编写、槽位提取、意图匹配、文本判断、文本匹配、文本信息抽取、文本清洗、机器翻译等。
l 自动驾驶点云
包括3D点云目标检测标注、3D点云语义分割标注、2D3D融合标注、点云连续帧标注等。
景联文科技提供完整的语音、图像、文本、视频的全领域数据处理能力。景联文科技官网