Python作为一门通用编程语言,在音频处理、人工智能相关领域有丰富的生态库,SpeechRecognition就是其中专门用于实现语音识别功能的第三方库,它封装了多个主流语音识别引擎的接口,让开发者可以用简单的代码完成语音转文字的操作。
环境准备与库安装
首先需要在Python环境中安装SpeechRecognition库,同时如果需要处理本地音频文件,还需要安装依赖的音频处理库。如果是使用麦克风进行实时识别,还需要安装PyAudio库用于音频采集。
使用pip命令安装相关依赖:
# 安装SpeechRecognition核心库 pip install SpeechRecognition # 安装音频处理依赖,用于读取wav等格式音频 pip install pydub # 安装麦克风采集依赖,仅实时识别需要 pip install pyaudio
核心API介绍
SpeechRecognition库的核心类是Recognizer,所有识别操作都通过该类的实例完成,常用的API如下:
- record(source, duration=None):从音频源中读取音频数据,duration参数可以指定读取时长
- recognize_google(audio, language="zh-CN"):调用Google Web Speech API进行识别,支持指定识别语言
- recognize_sphinx(audio):调用离线CMU Sphinx引擎识别,不需要联网
- Microphone():音频源类,用于获取麦克风输入的音频
- AudioFile(path):音频源类,用于读取本地音频文件
本地音频文件识别实现
本地音频识别是常见的需求,比如处理已经录制好的wav、mp3格式音频,下面是从wav文件识别文字的完整示例:
import speech_recognition as sr
# 创建识别器实例
recognizer = sr.Recognizer()
# 打开本地wav音频文件,注意只支持wav格式,其他格式需要先转换
audio_file = sr.AudioFile("test_audio.wav")
# 读取音频文件内容
with audio_file as source:
# 调整环境噪声阈值,提升识别准确率
recognizer.adjust_for_ambient_noise(source)
# 读取全部音频数据
audio_data = recognizer.record(source)
try:
# 调用Google识别引擎,指定中文语言
text = recognizer.recognize_google(audio_data, language="zh-CN")
print("识别结果:", text)
except sr.UnknownValueError:
print("无法识别音频内容")
except sr.RequestError as e:
print("识别服务请求失败:", e)
如果音频是mp3等其他格式,需要先用pydub库转换为wav格式再识别,转换代码如下:
from pydub import AudioSegment
# 读取mp3文件并转换为wav
audio = AudioSegment.from_mp3("test_audio.mp3")
audio.export("test_audio.wav", format="wav")
麦克风实时语音识别实现
实时识别适用于需要即时获取用户语音输入的场景,比如语音助手、实时字幕生成等,实现代码如下:
import speech_recognition as sr
recognizer = sr.Recognizer()
# 创建麦克风音频源
microphone = sr.Microphone()
print("请开始说话...")
with microphone as source:
# 调整噪声阈值
recognizer.adjust_for_ambient_noise(source)
# 监听麦克风输入,超时时间为5秒
audio_data = recognizer.listen(source, timeout=5)
try:
text = recognizer.recognize_google(audio_data, language="zh-CN")
print("实时识别结果:", text)
except sr.UnknownValueError:
print("未检测到有效语音内容")
except sr.RequestError as e:
print("识别服务异常:", e)
常见问题与优化建议
识别准确率低的问题
可以通过adjust_for_ambient_noise方法提前采集环境噪声样本,调整识别器的噪声阈值,同时尽量使用采样率为16000Hz、单声道的wav格式音频,这类音频的识别准确率更高。
离线识别的实现
如果不需要联网,可以使用CMU Sphinx离线引擎,首先安装pocketsphinx库:
pip install pocketsphinx
之后将识别方法替换为recognize_sphinx即可,示例:
import speech_recognition as sr
recognizer = sr.Recognizer()
with sr.AudioFile("test_audio.wav") as source:
audio_data = recognizer.record(source)
# 离线识别,不需要联网
text = recognizer.recognize_sphinx(audio_data)
print("离线识别结果:", text)
识别超时处理
实时识别时可以给listen方法设置timeout和phrase_time_limit参数,避免程序长时间阻塞,比如设置phrase_time_limit=10表示最长识别10秒的语音内容。
PythonSpeechRecognition语音识别音频处理修改时间:2026-06-15 13:24:24