~ (波ダッシュ,全角チルダ,ニョロ) が文字化けする問題をざっくり理解

文字化けの代表でよく上がる、〇〇からを表現する時などにつかう「ニョロ」と呼ばれる「~」や「〜」が実は環境で違う案件。

なんのこっちゃ分からなかったけど、ざっくり分かった。

「~」と「〜」が実は違う文字

まず、「~」と「〜」が実は違う文字であるということ。

何を言っているのか分からないだろうし、俺も最初ちょっと意味分からなかった。

「一」と「壱」は意味は同じだけど、見た目も違うし内部的に持っている文字コード番号も違う。

「~」と「〜」は意味は同じだし、見た目もほとんど同じだけど、内部的に持っている文字コード番号が違う。

やっぱり何を言っている分からないな。

以下は、フォントを変えてみた物を並べてみた。環境によるが、微妙に違ったりするのが分かるだろうか。

============================

sans-serif:「~」と「〜」

serif:「~」と「〜」

cursive:「~」と「〜」

fantasy:「~」と「〜」

monospace:「~」と「〜」

============================

ようは、「~」と「〜」は、見た目が全く同じか、微妙に違う別の文字である。

内部的には、前者がefbd9で後者がe3809cというユニコードで割り当てられており、まったくの別物である。

Windowsはefbd9でMacはe3809cが割り当てられている。

色んな理由や経緯などあるらしいけど、今でも決定的に違うのが、Windowsでニョロを打った場合はefbd9の「~」が使われ、Macでニョロを打つとe3809cの「〜」が使われる。

だから、WindowsユーザーのニョロがMac環境で文字化けしたり、Macユーザーのニョロは、サーバーにあげても文字化けしないとか、見え方が違うとかが発生する。

解決方法

完璧な解決方法はない。

外部サービスを通すと文字化けするなどは文字コードの変換で化けているので、こっちのサービスは大丈夫だけど、こっちはダメな時点で、どちらにも対応する方法が無い。

だが、サーバーに(データベース)に登録するタイミングやその他ファイルに吐き出す瞬間等で、文字化けしないどちらかの文字に置き換えることで、どちらかに寄せることは可能。

以下はPHPで文字を置き換える方法。

直接、文字を変換してもいいがその場合分かりにくいのが欠点。

 

変換する際の文字化けなどは以下のサイト様が詳しく書いてあります。

www.unirita.co.jp/blog/data-utilization/data-linkage/20141021.html

 

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">