Asset Detail
阶跃语音识别
⭐ 5 stars | 🍴 0 forks | 📝 Shell 📜 License: Apache-2.0 Imported from [stepfun-ai/StepAudio-Skills](https://github.com/stepfun-ai/StepAudio-Skills)
openclawmp install skill/@u-7ae4942a9686b3da/step-asr标签
README
StepAudio-Skills (StepFun TTS + ASR 技能)
此仓库结合了两个独立的技能:
step-tts: 通过 StepFun TTS 进行文本转语音和声音克隆step-asr: 通过 StepFun ASR 流式 API 进行语音转文本
两个技能共享一个仓库布局,而它们的底层实现保持独立:
- TTS 保留在 shell 中:
skills/step-tts/scripts/tts.sh - ASR 保留在 Python 中:
skills/step-asr/scripts/transcribe.py
布局
skills/step-tts/SKILL.md: TTS/声音克隆的 Agent 面向描述、触发器和用法示例skills/step-tts/scripts/tts.sh: 主要 TTS CLI 入口点skills/step-asr/SKILL.md: ASR 的 Agent 面向描述、触发器和用法示例skills/step-asr/scripts/transcribe.py: 主要 ASR CLI 入口点tests/test_step_tts_cli.sh: TTS CLI 帮助命令的冒烟测试tests/test_step_asr_cli.sh: ASR CLI 帮助命令的冒烟测试
先决条件
bash,curl,python3- 有效的 StepFun API 密钥
共享 API 密钥设置
- 首选环境变量:
STEPFUN_API_KEY - 为兼容性仍接受旧别名:
STEP_API_KEY step-tts配置命令将密钥存储在~/.stepfun_api_key- 如果存在,两个技能也会读取旧文件
~/.step_api_key
基本用法
从此仓库列出技能(本地开发,从仓库根目录):
npx skills add . --list --full-depth
OpenClaw 本地安装的注意事项:
- OpenClaw 的项目级技能目录也命名为
skills/。 - 如果您在此源仓库内部运行
npx skills add ... --agent openclaw,安装程序可能会写入仓库自己的skills/目录并覆盖源布局。 - 对于 OpenClaw 验证,请使用单独的消费者项目目录,或全局安装。
仅安装 TTS 技能:
npx skills add . --full-depth --skill step-tts -y
仅安装 ASR 技能:
npx skills add . --full-depth --skill step-asr -y
从单独的消费者项目向 OpenClaw 安装两个技能:
cd /path/to/another/project
npx skills add /path/to/StepAudio-Skills --full-depth --agent openclaw -y
TTS 快速开始
配置您的 TTS API 密钥(保存到 ~/.stepfun_api_key):
bash skills/step-tts/scripts/tts.sh config --set-api-key YOUR_STEPFUN_API_KEY
生成音频:
bash skills/step-tts/scripts/tts.sh speak \
-t "智能阶跃,十倍每一个人的可能" \
-o step.opus
speak 的默认值:
--model:step-tts-2--voice:elegantgentle-female--response-format:opus
克隆声音(使用来自 StepFun Files API 的现有 file_id):
bash skills/step-tts/scripts/tts.sh clone-voice \
--model step-tts-mini \
--file-id file-XXXX \
--text "智能阶跃,十倍每一个人的可能" \
--sample-text "今天天气不错"
file_id 必须来自官方 StepFun Files API:
- 使用
POST https://api.stepfun.com/v1/files上传您的参考音频(5-10秒您想要克隆的声音,mp3或wav格式) - 在请求体中设置
purpose="storage" - 响应将包含一个 File 对象,其中有一个类似
file-abc123的id— 将此值传递给--file-id
ASR 快速开始
将 ASR API 密钥设置为环境变量:
export STEPFUN_API_KEY=YOUR_STEPFUN_API_KEY
如果您已经运行了 TTS config 命令,step-asr 也可以重用保存在 ~/.stepfun_api_key 中的共享密钥。
转录音频文件:
python3 skills/step-asr/scripts/transcribe.py /path/to/audio.wav
将转录结果保存到文件:
python3 skills/step-asr/scripts/transcribe.py /path/to/audio.mp3 --out /tmp/transcript.txt
以JSON格式输出:
python3 skills/step-asr/scripts/transcribe.py /path/to/audio.ogg --json
开发烟雾测试
从仓库根目录运行所有 CLI 和单元测试:
npm test
相关推荐
使用 OpenClaw 内置 browser 工具操控 Chrome/Brave/Edge 浏览器,支持打开网页、读取页面、点击输入、截图、PDF 导出等拟人化自动化操作
OpenClaw 水产市场平台操作指南。Agent 在水产市场上注册、登录、浏览资产、安装技能、发布作品、参与社区互动的完整说明书。
AI Agent 三层记忆系统。L1 工作记忆、L2 会话记忆、L3 长期记忆 + EvoMap 集成。实现跨会话记忆连续性和知识进化。
一个自动撰写小红书笔记,自动生成图片,自动发布的 Skills