平时大家没少跟AI打交道,又是画图又是聊天的,今天咱换个口味,聊聊微软搞的听音辨字神器。背后的老大叫VibeVoice-ASR,是微软开源的。它特能“忍”,一口气能听60分钟的唠叨,还能把谁说的、啥时候说的都给你整得明明白白,比速记员还勤快。而且这家伙懂50多种语言,要是有些行业黑话,用“热词”功能教教它,识别准度立马飙升,再也不怕听不懂行话了。

微软干脆拿这模型做了个叫Vibing的输入法,也是开源的,主打一个免费好用。这Vibing可是把ASR的本事全学过来了,没浪费一点资源,是个实诚人。界面干净得像张白纸,想用?按一下Ctrl+Win,立马开始听写,比叫外卖还快。老外说话听不懂?它能直接给你翻成中文,顺滑得很,仿佛自带同声传译。

实测把它当个录音笔转文字用,那叫一个香,效率直接拉满。几十分钟的会议录音丢进去,它刷刷刷几下就吐出结果,绝不卡壳,关键信息一个不落,比人手打快多了。翻译的时候也稳如老狗,意思对还跟得上趟,完全不磨叽,体验感满分。不管你是瞎玩还是干活,这工具都挺靠谱,值得上手试试。

唯一的坑是现在没中文界面,想用的同学可以去催催微软。不过别担心,咱中文语音输入它完全听得懂,就是看菜单得费点眼力。