日本語におけるレガシーなエンコーディングでのミニマムなサブセット

などというものを考え始めています。とりあえず有力な候補としてはEUC-JPの場合には以下。


ASCII:
0x00-0x7F
JIS X 0208:
第1バイト 0xA1-0xFE
第2バイト 0xA1-0xFE
いろいろ考え合わせた上で半角カナとか機種依存文字とか水準の高い漢字とか非文字とかはいっていないです。で、そのメリットは?多種多様な環境のブラウザに対してサーバ側が安心して提供できる日本語文字ってなんだろうというところですかね。もう少し詳しく調べたいなぁ。
もちろん、ブラウザが進化すればこんなことはしなくていいはずなんだけれど。もしくはレガシーは使わないとか。
こんなことを考え始めたキッカケは、セキュリティ対策としてなんですが、それどころじゃなくなってきて。非力な私の手には余るなぁ。