AI Multimodal
Tạo ảnh, video, giọng nói và âm nhạc; phân tích file đa phương tiện và xử lý tài liệu bằng khả năng AI đa phương thức của Google Gemini và MiniMax.
Skill Này Làm Gì
Thách thức: Marketing đòi hỏi xử lý nhiều loại phương tiện (audio, ảnh, video, PDF) và tạo nội dung hình ảnh. Sử dụng các công cụ riêng cho mỗi định dạng không hiệu quả và tốn kém.
Giải pháp: Skill AI Multimodal tích hợp hai nền tảng mạnh mẽ: Google Gemini API cho phiên âm audio (9.5 giờ), phân tích ảnh, xử lý video (6 giờ), trích xuất PDF, tạo ảnh Imagen 4 và tạo video Veo 3 (clip 8 giây); MiniMax cho tạo ảnh chất lượng cao, video Hailuo 1080p, text-to-speech với 300+ giọng và tạo nhạc AI lên đến 4 phút. Hai API, một skill.
Kích Hoạt
Ngầm định: Tự động kích hoạt khi agent cần phân tích ảnh, phiên âm audio, xử lý video hoặc tạo nội dung hình ảnh.
Tường minh: Kích hoạt theo tên khi cần: “Activate ai-multimodal skill”
Tính Năng
1. Phiên Âm và Phân Tích Audio
Phiên âm file audio với timestamp, phát hiện người nói và phân tích âm thanh ngoài lời nói.
# Phiên âm audio
python scripts/gemini_batch_process.py --files meeting.mp3 --task transcribe
# Phân tích podcast theo chủ đề
python scripts/gemini_batch_process.py --files podcast.mp3 --task analyze --prompt "Identify key topics and timestamps"
Định dạng: WAV, MP3, AAC (tối đa 9.5 giờ)
Đầu ra: Markdown với định dạng timestamp [HH:MM:SS -> HH:MM:SS]
Lưu ý quan trọng: File >15 phút có thể bị cắt ngắn do giới hạn token đầu ra. Chia thành đoạn 15 phút để phiên âm đầy đủ.
Hướng dẫn: references/audio-processing.md
2. Hiểu và Phân Tích Ảnh
Phân tích ảnh để nhận dạng nội dung, trích xuất văn bản, phát hiện đối tượng và hỏi đáp trực quan.
# Phân tích screenshot
python scripts/gemini_batch_process.py --files screenshot.png --task analyze --prompt "Describe UI layout and identify all interactive elements"
# Trích xuất văn bản từ ảnh
python scripts/gemini_batch_process.py --files poster.jpg --task extract --prompt "Extract all text in structured format"
Định dạng: PNG, JPEG, WebP, SVG (tối đa 3.600 ảnh)
Khả năng: Chú thích, phân loại, OCR, phát hiện đối tượng, hỏi đáp trực quan
Hướng dẫn: references/vision-understanding.md
3. Phân Tích Video
Xử lý video để phát hiện cảnh, hỏi đáp theo thời gian và phiên âm có ngữ cảnh.
# Phân tích video marketing
python scripts/gemini_batch_process.py --files promo.mp4 --task analyze --prompt "Identify scenes, key messages, and suggested timestamps for cuts"
# Phân tích URL YouTube
python scripts/gemini_batch_process.py --files https://youtube.com/watch?v=xyz --task analyze
Định dạng: MP4, MOV, WebM (tối đa 6 giờ)
Video dài: Trích xuất audio bằng FFmpeg, chia thành đoạn 15 phút, phiên âm riêng.
Hướng dẫn: references/video-analysis.md
4. Tạo Ảnh Với Imagen 4
Tạo ảnh marketing từ mô tả văn bản.
# Tạo ảnh mạng xã hội
python scripts/gemini_batch_process.py --task generate --prompt "Modern SaaS dashboard screenshot, clean interface, blue and white color scheme, professional"
# Tạo hàng loạt
python scripts/gemini_batch_process.py --task generate --prompt "Product hero image" --count 4
Mô hình:
imagen-4.0-generate-001(chất lượng tiêu chuẩn)imagen-4.0-ultra-generate-001(chất lượng cao nhất)imagen-4.0-fast-generate-001(nhanh nhất)
Tỷ lệ khung hình: 1
, 16, 9, 4, 3Hướng dẫn: references/image-generation.md
5. Tạo Video Với Veo 3
Tạo video clip 8 giây có âm thanh theo cách bất đồng bộ.
# Tạo clip video
python scripts/gemini_batch_process.py --task generate-video --prompt "Product unboxing, smooth camera motion, professional lighting, cheerful mood"
Mô hình: veo-3.1-generate-preview
Thời lượng: 8 giây có âm thanh
Đầu ra: File MP4
Hướng dẫn: references/video-generation.md
6. Tạo Nội Dung Với MiniMax
MiniMax cung cấp bộ API bổ sung cho ảnh, video 1080p, giọng nói và âm nhạc.
Tạo ảnh:
python scripts/minimax_cli.py --task generate --prompt "Product lifestyle photo, warm colors, minimal" --count 4
Mô hình: image-01 (tiêu chuẩn), image-01-live (nâng cao) — $0.03/ảnh
Tạo video Hailuo:
python scripts/minimax_cli.py --task generate-video --prompt "Brand ambassador walking in city, 1080p, cinematic"
Mô hình video:
MiniMax-Hailuo-2.3(1080p chất lượng cao)MiniMax-Hailuo-2.3-Fast(nhanh hơn, rẻ hơn 50%)MiniMax-Hailuo-02(khung đầu + cuối tùy chỉnh)
Text-to-Speech:
python scripts/minimax_cli.py --task generate-speech --prompt "Chào mừng bạn đến với ClaudeKit Marketing" --voice "Vietnamese_Female_1"
Mô hình TTS: speech-2.8-hd (tốt nhất), speech-2.8-turbo (nhanh) — 300+ giọng, 40+ ngôn ngữ, điều chỉnh cảm xúc
Tạo âm nhạc:
python scripts/minimax_cli.py --task generate-music --prompt "Upbeat corporate background music, professional, 60 seconds"
Mô hình: music-2.5 — bài nhạc 4 phút có giọng ca, lời đồng bộ hóa
Hướng dẫn: references/minimax-generation.md
Điều Kiện Tiên Quyết
Quyền truy cập API:
GEMINI_API_KEYtừ Google AI StudioMINIMAX_API_KEYtừ MiniMax Platform- Python 3.8+ với
google-genai,python-dotenv,pillow,requests
Cài đặt:
pip install google-genai python-dotenv pillow requests
Xác minh cài đặt:
python scripts/check_setup.py
Cấu Hình
Biến môi trường (.env):
GEMINI_API_KEY=your_gemini_key_here
MINIMAX_API_KEY=your_minimax_key_here
Script có sẵn:
gemini_batch_process.py- CLI Gemini cho phân tích, phiên âm, tạo ảnh/video Geminiminimax_cli.py- CLI MiniMax cho tạo ảnh, video Hailuo, TTS, âm nhạcmedia_optimizer.py- Nén/thay đổi kích thước media theo giới hạn APIdocument_converter.py- Chuyển đổi PDF sang markdowncheck_setup.py- Xác minh API key và phụ thuộc
Thực Hành Tốt Nhất
1. Chọn Nền Tảng Và Mô Hình Phù Hợp
gemini-2.5-flashcho phiên âm, phân tích nhanhgemini-2.5-procho suy luận phức tạpimagen-4.0-generate-001cho ảnh Gemini tiêu chuẩnimagen-4.0-ultra-generate-001chỉ cho ảnh hero (chi phí cao hơn)image-01(MiniMax) cho ảnh lifestyle/sản phẩm — $0.03/ảnhMiniMax-Hailuo-2.3cho video marketing 1080p chuyên nghiệpspeech-2.8-hdcho voiceover quảng cáo chất lượng cao
2. Tối Ưu Media Trước Khi Tải Lên
Dùng media_optimizer.py để nén file >20MB trước khi xử lý.
3. Chia Nhỏ Audio/Video Dài Đoạn 15 phút ngăn phiên âm bị cắt ngắn. Dùng FFmpeg để chia.
Các Trường Hợp Sử Dụng Phổ Biến
Trường Hợp 1: Phiên Âm Podcast Kèm Chủ Đề
Tình huống: Phiên âm tập podcast 45 phút với timestamp và trích xuất chủ đề.
Quy trình:
- Chia audio thành 3 đoạn 15 phút (FFmpeg)
- Phiên âm mỗi đoạn:
python scripts/gemini_batch_process.py --files chunk1.mp3 --task transcribe - Ghép các bản phiên âm
- Trích xuất chủ đề:
--task analyze --prompt "Identify top 5 topics with timestamps"
Kết quả: Bản phiên âm đầy đủ kèm tóm tắt chủ đề.
Trường Hợp 2: Tạo Ảnh Mạng Xã Hội
Tình huống: Tạo 4 biến thể ảnh thông báo sản phẩm.
Quy trình:
- Xác định prompt với ngữ cảnh thương hiệu: “Modern tech product announcement, gradient blue background, clean typography, professional, 16”
- Tạo hàng loạt:
python scripts/gemini_batch_process.py --task generate --prompt "..." --count 4 - Xem xét kết quả đầu ra
- Chọn biến thể tốt nhất để đăng
Kết quả: 4 ảnh độc đáo phù hợp với hướng dẫn thương hiệu.
Xử Lý Sự Cố
Vấn đề: API trả về 401 Unauthorized
Giải pháp: Xác minh GEMINI_API_KEY trong file .env. Lấy key mới từ Google AI Studio nếu cần.
Vấn đề: Phiên âm bị cắt ngắn cho audio dài
Giải pháp: Chia audio thành đoạn 15 phút bằng FFmpeg hoặc media_optimizer.py.
Vấn đề: Tạo ảnh không khớp với thương hiệu
Giải pháp: Bao gồm màu sắc thương hiệu cụ thể, từ khóa phong cách và tham chiếu tài sản hiện có trong prompt. Dùng skill ai-artist để tối ưu prompt.
Vấn đề: MiniMax API trả về 401 Unauthorized
Giải pháp: Xác minh MINIMAX_API_KEY trong file .env. Lấy key từ MiniMax Platform.
Vấn đề: Video Hailuo mất nhiều thời gian render
Giải pháp: Video Hailuo xử lý bất đồng bộ — script tự động polling. Dùng MiniMax-Hailuo-2.3-Fast nếu cần kết quả nhanh hơn (rẻ hơn 50%).
Skill Liên Quan
- AI Artist - Kỹ thuật viết prompt cho kết quả tốt hơn
- Media Processing - FFmpeg để thao tác audio/video
- Brand - Tạo ảnh phù hợp thương hiệu
- Creativity - Định hướng sáng tạo cho nội dung được tạo
- Video - Lập kế hoạch và kịch bản video marketing
Lệnh Liên Quan
/design/good- Tạo ảnh chất lượng cao/design/video- Lên kế hoạch nội dung video/content/enhance- Cải thiện nội dung bằng phân tích AI