一句话总结
法国初创公司Gladia完成1600万美元A轮融资,提升语音识别技术。
核心要点
- Gladia提供高精度、低延迟的语音识别API服务。
- Gladia支持100种语言和多种口音,已服务600多家公司。
- 新资金将用于整合音频智能和基于LLM的任务,简化API调用流程。
- Gladia致力于降低实时转录的延迟,目前延迟低于300毫秒。
新闻简报
法国初创公司Gladia近日完成了1600万美元的A轮融资,该公司提供一款语音识别应用程序接口(API),能将任何音频文件转换成文本。尽管亚马逊、微软和谷歌都提供语音转文本API作为其云托管产品套件的一部分,但它们的性能并不如一些专业初创公司提供的新型模型。Gladia的API最初是基于OpenAI的Whisper语音转文本模型的微调版本,并进行了一些必要的改进,例如支持对话中的多人发言识别和分离。Gladia的API作为一个托管服务,用户可以在自己的应用程序和服务中使用,目前已有超过600家公司使用Gladia,包括一些会议记录器和笔记助手。随着新资金的注入,Gladia希望整合音频智能和基于大型语言模型(LLM)的任务到一个API调用中,简化流程。此外,Gladia还致力于解决实时转录的延迟问题,目前能够以低于300毫秒的延迟转录实时对话。Gladia认为我们正处于音频应用的“ChatGPT时刻”,随着苹果或谷歌在iOS或Android中内置转录模型,消费者将开始理解自动化转录在他们使用的应用程序中的价值。
信息来源:techcrunch