三星电子公布了“Galaxy人工智能(AI)”的语言模型开发流程,有助于实现无语言障碍的自由交流。
三星电子25日宣布,正在全球约20个研发中心重点进行语言模型研究和开发,以实现具有超越语言的文化理解和知识的先进“Galaxy AI”。
Galaxy AI的设备端实时口译和翻译功能目前支持16种语言。我们计划在年内再添加四种语言——瑞典语、荷兰语、罗马尼亚语和突厥语——总共支持 20 种语言。
目前支持的语言有韩语、中文(简体)、英语、法语、德语、印地语、意大利语、日语、波兰语、葡萄牙语、西班牙语、泰语、越南语、阿拉伯语、印度尼西亚语和俄语。
三星电子的“Galaxy AI”语言模型将在▲语言特征和语法的定量评估▲验证文化知识和理解的定性评估之后发布。
阿拉伯语是世界上第六大语言,有 20 多个国家的 4 亿多人使用。为了解释和翻译阿拉伯语,您必须学习现代标准阿拉伯语 Fusha 和日常生活中使用的方言 Ammiyya。特别是,阿拉伯语方言共有30种。
三星研究院约旦研究中心(SRJO)宣布开发出一种语言模型,可以理解阿拉伯方言并以标准阿拉伯语提供答案。为了实现这一目标,我们收集了不同方言的录音数据,并将其转换为文本。
负责数据库建设的约旦研究所的阿亚·哈桑(Ayah Hasan)解释说:“我们组建了一支由母语人士组成的团队,他们能够准确理解各种方言的细微差别和变化,然后手动将语音数据转换为文本和句子。 。“ 做过。
三星电子解释说,通过了解阿拉伯语的复杂性、仔细选择数据并应用先进的建模技术,它能够将阿拉伯语添加到 Galaxy AI 中。
越南语是全球约有 1 亿人使用的语言,其声调系统与汉语和泰语等邻近语言类似。特别是越南语有六个声调。例如,越南语“Ma”根据声调具有完全不同的含义,例如母亲(Má)、坟墓(Mả)或鬼魂(Ma)。
三星越南研究中心 (SRV) 经过了对语音数据的精炼和精炼,以便能够识别语调的细微差异。首先,为了准确区分声调,将一个单词切割成0.02秒左右的短帧并制成数据库。
中南美洲22个国家的官方语言是西班牙语。然而,即使在西班牙语中,指代同一对象的单词也会根据国家和地区的不同而有很大差异。
例如,在墨西哥,游泳池被称为“alberca”。然而,在阿根廷、巴拉圭和乌拉圭,它被称为“fileta”。在哥伦比亚、玻利维亚和委内瑞拉,它被表达为“piscina”。
负责开发中南美洲地区语言模型的三星研究院巴西研究中心(SRBR)收集和管理来自各个国家的大量数据,包括音频和文本,并不断改进,以便“Galaxy AI'可以理解拉丁美洲国家西班牙语的差异,他解释说他做到了。
在人口第四大国印度尼西亚,有 2.8 亿人讲印尼语。印度尼西亚语被认为是一种相对容易学习的语言,因为它没有冠词、复数或动词时态变化。然而,另一方面,如果你不完全理解句子的上下文,你就无法理解内容,所以它是一种需要不断解释和翻译的语言。
为了体现这些特点,三星印尼研究院(SRIN)宣布应用“神经机器翻译(NMT)”方法,该方法类似于人脑的学习过程。通过以“句子单元”而不是单词来学习语言,Galaxy AI 能够理解交流的上下文和规则。
留言