#include "vad_onnx.h" #include #include int main(int argc, char* argv[]) { if (argc < 3) { std::cerr << "Usage: " << argv[0] << " " << " " << std::endl; return 1; } // 获取命令行传入的音频文件路径 std::string model_path = argv[1]; std::string wav_path = argv[2]; // std::string model_path = "/Users/chenxiang/translator/Translator/moyoyo_asr_models/silero-vad/silero_vad.onnx"; // std::string wav_path = "/Users/chenxiang/translator/core/whisper_wrapper/bin/zh.wav"; // 加载音频文件 SF_INFO sf_info; SNDFILE* file = sf_open(wav_path.c_str(), SFM_READ, &sf_info); int samplerate = sf_info.samplerate; int channels = sf_info.channels; int frames = sf_info.frames; std::vector audio(frames * channels); sf_readf_float(file, audio.data(), sf_info.frames); sf_close(file); // 创建目标 buffer 来保存 512 帧音频数据 std::vector audio_512frames(audio.begin(), audio.begin() + 512); try { VadOnnx vad_model = VadOnnx(model_path); // 输入一段音频数据（512 samples） float result_512 = vad_model.forward_infer(audio_512frames); std::cout << "result_512 = " << result_512 << std::endl; std::vector result_1 = vad_model.vad_dectect(audio); if (!result_1.empty()) { std::cout << "result_1.size = " << result_1.size() << std::endl; for (int i = 0; i < 5 && i < result_1.size(); ++i) { std::cout << result_1[i] << ", "; } std::cout << "(only show 5)" << std::endl; } std::map result_map; result_map = vad_model.vad_dectect(audio, false); std::cerr << "result: " << std::endl; if (!result_map.empty()) { for (const auto& pair : result_map) { std::cout << pair.first << " : " << pair.second << std::endl; } } } catch (const std::exception& ex) { std::cerr << "Error: " << ex.what() << std::endl; } // // 输出音频信息 // std::cout << "========= 音频信息 =========" << std::endl; // std::cout << "采样率: " << samplerate << " Hz" << std::endl; // std::cout << "通道数: " << channels << std::endl; // std::cout << "总帧数: " << frames << std::endl; // std::cout << "===========================" << std::endl; return 0; }