本稿では、アフリカ言語における画像キャプショニングのための包括的なフレームワーク「AfriCaption」を提案しています。これは、20のアフリカ言語に対応した多言語キャプショニングを実現するもので、主な貢献は3つです。1つ目は、文脈を考慮した選択と翻訳プロセスを通じて生成された、Flickr8kに基づくセマンティックに整列したキャプションを持つキュレーションデータセットの構築。2つ目は、モデルの集約と適応的な置換を通じたデータの質を保証する動的で文脈を保持するパイプラインの提供。3つ目は、SigLIPとNLLB200を統合した0.5Bパラメータの「AfriCaption」モデルによる、過小評価されている言語向けのキャプション生成です。このフレームワークは、アフリカ言語における画像キャプショニングの最初のスケーラブルなリソースを確立し、真に包括的な多モーダルAIの基盤を築くことを目指しています。