【画像生成AI】指の描写は完璧なのに、なぜ「きさらぎ駅」の文字は異世界言語になってしまうのか?

2026年02月19日 仕事のこだわり

最近、趣味や仕事で画像生成AIに触れる機会がぐっと増えてきました。
プロンプト(指示文)を入れるだけで、数秒後にはプロ顔負けのイラストが出来上がる……まさに魔法のようなツールですが、使えば使うほど気になる「ある致命的な弱点」にぶち当たっています。

それは、**「日本語(漢字・ひらがな・カタカナ)がめちゃくちゃ」**という問題です。

恐怖の「きさらぎ駅」チャレンジ

ネット怪談で有名な「きさらぎ駅」の画像を生成しようと思い立ち、こんなプロンプトを試してみました。

「異世界駅で有名なきさらぎ駅の画像を作成。駅名は「きさらぎ駅」と表示してください」

雰囲気たっぷりの薄暗いホーム、誰もいない不気味な空間。画像自体のクオリティは素晴らしいのですが、肝心の駅名標を見てみると……。

……読めない。

ローマ字や英単語であれば、比較的まともに出力されることが多いのですが、漢字やひらがなになった途端、AIは急にポンコツになります。
「きさらぎ駅」と明確に指定しているにもかかわらず、そこにあるのは漢字のような、あるいは象形文字のような、謎の記号の羅列。

まあ、今回のテーマが異世界へ迷い込む「きさらぎ駅」なので、この謎文字も「異世界の言語だ」と言い張れば、それはそれで味があるのかもしれません(笑)。しかし、看板やポスターなどを正確に描写したい時には、これは大きな壁となります。

「指の本数問題」は解決済み?

一方で、画像生成AIの悪癖として以前から有名だったのが「人間の指の数がおかしい」問題です。6本あったり、逆に少なかったり、関節があらぬ方向に曲がっていたり……。

これについても現状を確認すべく、「全身の画像で両手を開いた状態の画像作成」という、AIにとっては少し意地悪なテストをしてみました。
使用したのは画像生成アプリの「Whisk」です。

お見事!
違和感なく、しっかりと片手5本の指が描かれています。
以前はあんなに苦戦していた「手」の描写に関しては、技術の進歩によってはっきりと改善されていることがわかります。AIは確実に進化しているのです。

なぜ文字だけが進化しないのか? Geminiに聞いてみた

では、なぜ手足は描けるようになったのに、文字はいまだに「謎の模様」止まりなのでしょうか?
この疑問をそのままAI(Gemini)にぶつけてみたところ、非常に納得のいく3つの理由が返ってきました。

① 文字を「絵(模様)」として見ている
私たち人間は文字を「意味のある記号」や「書き順」で認識しますが、AIにとって文字はあくまで「そういう形のテクスチャ(模様)」に過ぎません。看板の文字も、服の柄も、森の木の葉も、AIにとっては全て同じ「ピクセルの集合体」です。そのため、漢字のような複雑な線画は「なんとなくそれっぽい線の集まり」として処理され、結果として謎の文字が生まれます。

② 画像圧縮の構造的な問題
Stable DiffusionなどのAIは、画像を生成する過程で情報を圧縮して処理します。この時、文字のような「正確な配置が命」の情報は潰れやすく、復元する際にAIが想像で補完してしまうため、線が増減したり変なハネがついたりしてしまうそうです。

③ 圧倒的な「英語偏重」
AIの学習データの大部分は英語圏のものです。アルファベット26文字に比べて、日本語はひらがな・カタカナ・漢字を含めると数千文字。学習データの量に圧倒的な差があるため、英語は綺麗に出せても、日本語はまだ学習不足なのが現状です。

最新鋭「DALL-E 3」ならいけるのか?

Gemini先生いわく、「日本語の文字生成なら、現状DALL-E 3(Bing Image Creatorなど)が最強だよ」とのこと。
なるほど、最新モデルならあるいは……!と希望を抱き、BingのImage Creatorで再度「きさらぎ駅」に挑戦してみました。

結果は……。

ダメでした(笑)。

おまけに 英字も「KISARAAgi STATION」になっていますw

やはり、いくら最新モデルといえども、複雑な日本語の文字列を完璧に画像内に書き起こすのは、まだハードルが高いようです。

結論:気長に待つしかない

指の描写が見事に改善されたように、いずれは「文字」に関しても、AIが文脈や字形を正しく理解し、完璧な日本語看板を描き出してくれる日が来るでしょう。
ただ、現状では「文字はあとからPhotoshopなどで合成する」のが一番手っ取り早い解決策のようです。

AIの進化速度は凄まじいですが、日本語という複雑で美しい言語を習得するには、もう少し時間がかかりそうですね。それまでは、AIが生み出す「異世界文字」を楽しみながら、気長に待つこととします。

Copyright c syshan.jp all rights reserved.