Audiblez
综合介绍
Audiblez 是一个可以将电子书(.epub格式)转换为有声读物(.m4b格式)的工具。它使用一个名为 Kokoro-82M 的高质量文本转语音(TTS)模型,这个模型能够生成听起来非常自然的人声。目前,该工具支持多种语言,包括美式英语、英式英语、西班牙语、法语、印地语、意大利语、日语、巴西葡萄牙语和中文普通话。用户可以通过一个简单的命令行工具或一个图形用户界面(GUI)来操作。对于拥有兼容显卡的用户,Audiblez 支持通过 CUDA 进行 GPU 加速,从而大幅缩短转换时间。例如,在NVIDIA T4 GPU上,转换一本约16万字符的书籍大约需要5分钟。该工具还允许用户调整语音速度,以及手动选择需要转换的电子书章节。
功能列表
- 电子书转有声书: 将
.epub
格式的电子书文件转换为.m4b
格式的有声读物文件。 - 多语言支持: 支持美式英语、英式英语、西班牙语、法语、印地语、意大利语、日语、巴西葡萄牙语和中文普通话。
- 多种声音选择: 提供多种不同性别和风格的语音模型供用户选择。
- 图形用户界面 (GUI): 除了命令行工具外,还提供一个名为
audiblez-ui
的图形界面,简化操作流程。 - GPU 加速: 如果用户的电脑装有NVIDIA显卡并配置了CUDA环境,可以启用该功能以获得更快的处理速度。
- 语速调节: 支持用户自定义设置有声读物的播放速度,范围从0.5倍到2.0倍。
- 章节选择: 用户可以手动、交互式地选择电子书中的特定章节进行转换,而不是转换整本书。
- 跨平台运行: 可以在Linux、macOS和Windows操作系统上安装和使用。
使用帮助
Audiblez 核心是一个Python程序,因此使用它之前,你的电脑需要有Python环境。此外,它依赖两个外部程序:ffmpeg
和espeak-ng
。ffmpeg
用于处理音频文件,最终将各个章节的音频合并成一个.m4b
有声书文件。espeak-ng
是一个文本转语音的软件合成器,Audiblez需要它来辅助处理文本。
基础安装 (Linux - Ubuntu/Debian)
在基于Debian的Linux发行版(如Ubuntu)上安装是最直接的。
- 安装依赖软件: 打开终端,输入以下命令来安装
ffmpeg
和espeak-ng
。sudo apt install ffmpeg espeak-ng
- 安装Audiblez: 使用Python的包管理器pip进行安装。
pip install audiblez
基础安装 (macOS)
在macOS上,推荐使用Homebrew包管理器来安装依赖。
- 安装依赖软件: 打开终端,使用Homebrew安装
ffmpeg
和espeak-ng
。brew install ffmpeg espeak-ng
- 安装Audiblez: 使用pip进行安装。
pip install audiblez
基础安装 (Windows)
在Windows上安装过程稍微复杂一些,官方推荐在一个独立的Python虚拟环境(venv)中进行,以避免与其他软件产生冲突。
- 创建项目文件夹: 打开命令提示符(Terminal),创建一个新文件夹并进入该文件夹。
mkdir audiblez cd audiblez
- 创建并激活虚拟环境:
python -m venv venv .\venv\Scripts\Activate.ps1
激活成功后,你会在命令行提示符的开头看到
(venv)
字样。 - 安装Audiblez: 在虚拟环境中,使用pip安装。
pip install audiblez
注意:在Windows上使用此工具,你仍然需要自行安装
ffmpeg
,并确保其路径已经添加到系统的环境变量中,否则最后无法生成.m4b
文件。
如何使用命令行工具
安装完成后,你就可以直接在终端使用audiblez
命令。
- 基本转换:最简单的用法是提供一个电子书文件路径,并指定一个声音。
audiblez "我的书籍.epub" -v af_sky
这里的
-v af_sky
是指定使用名为 "sky" 的美式英语女声。程序会先在电子书所在目录下生成多个.wav
格式的章节音频文件,全部生成完毕后,会自动将它们合并为一个我的书籍.m4b
文件。 - 调整语速:如果你觉得默认语速太快或太慢,可以使用
-s
参数来调整,1.0代表正常速度。# 使用1.5倍速 audiblez "我的书籍.epub" -v af_sky -s 1.5 # 使用0.8倍慢速 audiblez "我的书籍.epub" -v af_sky -s 0.8
- 选择中文声音:转换中文电子书时,需要选择一个中文声音。例如,使用名为 "xiaobei" 的普通话女声。
audiblez "三体.epub" -v zf_xiaobei
- 使用GPU加速:如果你有NVIDIA显卡并已正确安装PyTorch和CUDA驱动,可以使用
-c
或--cuda
参数来启用GPU加速。audiblez "我的书籍.epub" -v af_sky -c
- 手动选择章节:有些电子书包含很多附录或前言,你可能不想听。使用
-p
参数,程序会列出所有章节,让你手动选择要转换的部分。audiblez "我的书籍.epub" -v af_sky -p
如何使用图形用户界面 (GUI)
如果你不习惯使用命令行,可以安装并运行它的图形界面版本。
- 安装GUI依赖: 图形界面需要额外的依赖库。
# 对于Linux (Ubuntu/Debian) sudo apt install libgtk-3-dev pip install audiblez pillow wxpython # 对于macOS和Windows pip install audiblez pillow wxpython
- 运行GUI程序: 在终端或命令提示符中输入以下命令:
audiblez-ui
这会打开一个窗口,你可以在界面上选择电子书文件、选择声音、调整语速,然后点击按钮开始转换。
应用场景
- 个人阅读辅助对于视力不佳的用户或者喜欢在通勤、运动、做家务时“听书”的用户,可以将自己拥有的
.epub
格式电子书转换为有声读物,随时随地收听。 - 语言学习学习外语的用户可以转换外文原版电子书,通过听书的方式来锻炼听力、熟悉单词发音和语调。由于支持语速调节,可以根据自己的水平调整快慢。
- 内容创作者素材准备播客主或视频创作者如果需要引用书籍内容,可以快速将电子书转换为音频,方便在自己的作品中引用或作为背景资料收听。
- 无障碍访问为有阅读障碍(如诵读困难)的用户提供一种将文本信息转换为音频信息的途径,帮助他们更轻松地获取知识和享受文学作品。
QA
- 这个工具是免费的吗?是的,Audiblez是一个在GitHub上开源的项目,使用MIT许可证,任何人都可以免费下载和使用。
- 为什么转换失败或最后没有生成 .m4b 文件?最常见的原因是
ffmpeg
没有被正确安装,或者它的路径没有加入到系统的环境变量中。Audiblez依靠ffmpeg
来合并音频文件,如果系统找不到这个命令,就无法完成最后一步。请确保在终端或命令提示符中直接输入ffmpeg
能看到版本信息。 - 支持哪些语言和声音?它目前支持英语(美国、英国)、西班牙语、法语、印地语、意大利语、日语、葡萄牙语(巴西)和中文普通话。每个语言下都有多种男女声音可选。例如,中文女声有
zf_xiaobei
、zf_xiaoni
等,中文男声有zm_yunjian
、zm_yunxi
等。 - 转换一本书需要多长时间?时间取决于书籍的长度和你的电脑性能。根据作者提供的数据,在CPU上(MacBook Pro M2),转换一本约16万字的书大约需要1小时。但如果使用支持CUDA的GPU,同样的书籍只需要大约5分钟。
- 我可以在苹果M系列芯片的Mac上使用GPU加速吗?目前还不支持。该工具的GPU加速依赖于PyTorch的CUDA实现,而CUDA是NVIDIA的技术。截至目前,还没有支持Apple Silicon(M1, M2等)的版本。