Hướng dẫn chi tiết cách dùng Microsoft Azure Speech Studio (Audio Content Creation) để chuyển văn bản thành giọng nói, chọn voice và xuất file MP3/WAV chất lượng cao.
Text-to-Speech là gì
Hiện nay nhu cầu tạo giọng đọc AI từ văn bản (Text-to-Speech) đang tăng rất mạnh. Từ làm video YouTube, TikTok, podcast, audiobook, bài giảng online, thuyết minh bài học, cho tới chatbot chăm sóc khách hàng — tất cả đều cần audio.
Vấn đề là:
-
Thuê người đọc khá tốn chi phí
-
Tự thu âm mất thời gian, dễ dính tạp âm
-
Phần mềm miễn phí thì giọng “robot”, nghe không tự nhiên
Một trong những giải pháp tốt nhất hiện nay là Microsoft Azure Speech – Audio Content Creation. Đây là công cụ AI chuyển văn bản thành giọng nói cực kỳ tự nhiên, hỗ trợ nhiều ngôn ngữ (trong đó có tiếng Việt) và cho phép bạn xuất file MP3 hoặc WAV trực tiếp.
Trong bài này, bạn sẽ được hướng dẫn từng bước từ số 0:
-
Tạo tài khoản Azure
-
Tạo Speech resource
-
Kết nối Speech Studio
-
Nhập văn bản
-
Chọn giọng đọc
-
Xuất file âm thanh
Chỉ cần làm theo đúng các bước, bạn có thể tạo audiobook hoặc giọng đọc video trong vòng 10 phút.
Azure Audio Content Creation là gì? Dùng để làm gì?
Azure Audio Content Creation là một công cụ thuộc hệ sinh thái Azure AI Speech của Microsoft. Nói đơn giản, đây là hệ thống trí tuệ nhân tạo có khả năng:
Biến văn bản (text) thành giọng nói giống người thật.
Không giống Google Translate đọc văn bản trước đây, Azure TTS sử dụng Neural Voice (giọng thần kinh) nên có ngữ điệu, ngắt nghỉ và cảm xúc.
Các ứng dụng thực tế
Bạn có thể dùng để:
-
Lồng tiếng video YouTube
-
Làm giọng đọc TikTok tự động
-
Tạo audiobook (đọc sách)
-
Đọc bài học tiếng Anh
-
Tạo audio bài giảng e-learning
-
Tạo voice cho tổng đài tự động (IVR)
-
Đọc tin tức website tự động
Ưu điểm lớn nhất
-
Có giọng tiếng Việt tự nhiên
-
Tùy chỉnh tốc độ đọc
-
Chỉnh cao độ giọng
-
Xuất file MP3/WAV
-
Không cần cài phần mềm (chạy trên trình duyệt)
Chuẩn bị trước khi bắt đầu
Trước khi thực hiện, bạn cần chuẩn bị:
Checklist nhanh:
-
1 tài khoản Microsoft (Outlook/Hotmail đều được)
-
Trình duyệt Chrome hoặc Edge
-
Văn bản cần chuyển thành giọng nói
-
Internet ổn định
Mẹo quan trọng:
Văn bản nên có dấu câu rõ ràng (chấm, phẩy, xuống dòng).
AI đọc hay hay dở phụ thuộc 60% vào cách bạn viết kịch bản.
Ví dụ:
❌ Sai:
chào mừng các bạn đến với kênh hôm nay chúng ta học phát âm tiếng anh
✔ Đúng:
Chào mừng các bạn đến với kênh.
Hôm nay chúng ta học phát âm tiếng Anh.
Bước 1: Tạo tài khoản Azure và truy cập Azure Portal
Azure là nền tảng điện toán đám mây của Microsoft. Mọi công cụ AI của Microsoft đều chạy trên đây, nên trước tiên bạn phải đăng nhập vào Azure Portal.
Thực hiện
-
Mở trình duyệt
-
Vào trang: https://portal.azure.com
-
Đăng nhập bằng tài khoản Microsoft
Nếu lần đầu sử dụng, hệ thống sẽ yêu cầu:
-
xác minh email
-
điền thông tin cơ bản
Sau khi đăng nhập thành công, bạn sẽ thấy trang quản lý Azure (bảng điều khiển).
Đây là nơi chúng ta sẽ tạo công cụ chuyển văn bản thành giọng nói.
Bước 2: Tạo Speech Resource (Azure AI Speech)
Đây là bước quan trọng nhất. Nếu bạn làm sai bước này, Speech Studio sẽ không hoạt động.
2.1 Tạo resource
Tại trang Azure Portal:
-
Ở thanh tìm kiếm phía trên, gõ:
Speech -
Chọn:
Speech (Azure AI Speech) -
Nhấn nút Create
Bây giờ bạn sẽ thấy form tạo dịch vụ.
2.2 Điền thông tin
Bạn cần điền chính xác:
Subscription
→ chọn subscription đang có
Resource group
→ bấm Create new → đặt tên tùy ý
(Ví dụ: speech-ai)
Region (rất quan trọng)
Nên chọn:
-
Southeast Asia
-
East Asia
(Chọn gần Việt Nam để giọng đọc phản hồi nhanh và ổn định)
Name
→ đặt tên bất kỳ
Ví dụ: tts-audio
Pricing tier
→ chọn mặc định (Standard S0 hoặc Free nếu có)
Sau đó bấm Review + Create → Create
Azure sẽ mất khoảng 30–60 giây để tạo dịch vụ.
2.3 Lấy Key và Region
Sau khi tạo xong:
-
Mở resource vừa tạo
-
Vào mục Keys and Endpoint
Tại đây bạn sẽ thấy:
-
KEY 1
-
KEY 2
-
Region
Hãy copy và lưu lại 2 thông tin:
-
Key
-
Region
Đây chính là “mật khẩu” để Speech Studio kết nối AI giọng đọc.
Nếu thiếu bước này, bạn sẽ không tạo được audio.
Bước 3: Dùng Speech Studio (Audio Content Creation) để chuyển Text → Speech
Sau khi đã có Key và Region, chúng ta sẽ sử dụng công cụ chính để tạo giọng đọc: Speech Studio. Đây là giao diện web chính thức của Microsoft cho phép bạn tạo audio trực tiếp trên trình duyệt, không cần cài phần mềm.
3.1 Truy cập Speech Studio
-
Mở trình duyệt
-
Vào trang: https://speech.microsoft.com
-
Đăng nhập bằng chính tài khoản Microsoft đã dùng cho Azure
Sau khi đăng nhập, bạn sẽ thấy giao diện nhiều tính năng AI giọng nói.

Hãy chọn:
Audio Content Creation → Text to Speech
3.2 Kết nối Speech Resource
Lần đầu sử dụng, hệ thống sẽ yêu cầu chọn resource:
-
Chọn Subscription
-
Chọn Speech Resource bạn vừa tạo
-
Chọn đúng Region
Nếu không thấy resource → 99% là do chọn sai Region.
Sau khi kết nối thành công, bạn sẽ vào màn hình soạn thảo audio.
3.3 Tạo project audio
Nhấn Create new project
Điền:
-
Project name: ví dụ
audiobook1 -
Language: chọn ngôn ngữ chính của nội dung (ví dụ Vietnamese)
Bấm Create
Bây giờ bạn đã vào được trình soạn thảo Text-to-Speech.
3.4 Nhập văn bản và nghe thử
Ở giữa màn hình là khung soạn thảo.
-
Dán đoạn văn bản của bạn vào
-
Nhấn nút Play / Preview
AI sẽ đọc thử ngay lập tức.
Lưu ý rất quan trọng:
Azure đọc theo dấu câu. Nếu câu quá dài → giọng sẽ “robot”.
Mẹo:
-
Mỗi câu 8–15 từ
-
Nên xuống dòng sau mỗi câu
Ví dụ tốt:
Hôm nay chúng ta sẽ học cách phát âm.
Đây là lỗi mà người Việt thường gặp.
Hãy lắng nghe thật kỹ.
Bước 4: Chọn giọng đọc và tinh chỉnh giọng nói
Đây là phần quyết định audio có nghe giống người thật hay không.
4.1 Chọn Voice
Ở cột bên phải → mục Voice
Bạn có thể chọn:
-
Giọng nam
-
Giọng nữ
-
Nhiều phong cách khác nhau
Hãy thử từng giọng bằng nút Preview voice trước khi xuất file.
Gợi ý:
-
Video YouTube: giọng nữ rõ, tốc độ vừa
-
Podcast: giọng nam trầm
-
Học ngoại ngữ: giọng đọc chậm
4.2 Điều chỉnh tốc độ và cao độ
Bạn sẽ thấy các thanh chỉnh:
-
Speaking rate (tốc độ đọc)
-
Pitch (cao độ giọng)
-
Volume (âm lượng)
Thiết lập khuyên dùng:
| Mục | Giá trị gợi ý |
|---|---|
| Speaking rate | 0.9 – 1.0 |
| Pitch | 0 hoặc +2% |
| Volume | 0 |
Không nên tăng tốc quá nhanh → người nghe sẽ nhận ra là AI.
Sau khi chỉnh, nhấn Preview để nghe lại.
Bước 5: Xuất file âm thanh MP3 / WAV
Khi đã hài lòng với giọng đọc:
-
Nhấn Export
-
Chọn định dạng:
MP3
→ dùng cho video, YouTube, website (khuyến nghị)
WAV
→ chất lượng cao, dùng cho chỉnh sửa chuyên nghiệp
-
Nhấn Download
File sẽ được tải về máy.
Nên đặt tên file như sau:
bai-01-giong-nu-tts.mp3
Điều này giúp quản lý hàng trăm file audio sau này dễ dàng.
Nâng cao: Dùng SSML để giọng đọc tự nhiên hơn
SSML (Speech Synthesis Markup Language) là ngôn ngữ giúp bạn điều khiển cách AI đọc.
Bạn có thể:
-
Tạo khoảng nghỉ
-
Nhấn mạnh từ
-
Điều chỉnh tốc độ từng đoạn
Ví dụ thêm khoảng nghỉ
Nhấn mạnh từ quan trọng
Giảm tốc độ một câu
Chỉ cần thêm các đoạn này vào text, bạn sẽ thấy giọng đọc tự nhiên hơn rất nhiều.
Lỗi thường gặp và cách khắc phục
1. Không thấy Speech resource
→ Bạn chọn sai Region
2. Preview không phát tiếng
→ Trình duyệt chặn autoplay audio
→ Hãy bấm vào tab rồi phát lại
3. Giọng đọc bị robot
→ Câu quá dài
→ Thiếu dấu chấm
4. Đọc sai số
→ Viết số thành chữ
Ví dụ: 1200 → “một nghìn hai trăm”
5. File tải về bị lỗi
→ đổi sang WAV hoặc dùng Chrome
Mẹo để audio nghe giống người thật
-
Viết câu ngắn
-
Xuống dòng nhiều
-
Tránh ký hiệu %, $, @
-
Không viết tắt (vd: ko, mk, bn…)
-
Nghe preview trước khi export hàng loạt
Đây là bí quyết mà nhiều kênh YouTube đang dùng để làm video hàng ngày bằng AI voice.
Kết luận
Microsoft Azure Speech Studio là một trong những công cụ Text-to-Speech mạnh nhất hiện nay. Chỉ cần:
-
Tạo Speech resource
-
Vào Speech Studio
-
Dán văn bản
-
Chọn giọng đọc
-
Xuất file MP3
Bạn đã có thể tạo audiobook, video thuyết minh hoặc bài giảng mà không cần thu âm.
Nếu bạn tối ưu kịch bản và dùng thêm SSML, chất lượng giọng đọc có thể gần như người thật và đủ dùng cho YouTube, e-learning hoặc website tin tức.

















