post:2015年6月8日 19:55

unicodeのブロックはどのくらい余裕があるか

www.unicode.org/Public/UCD/latest/ucd/Blocks.txt より調査。
バージョンは# Blocks-7.0.0.txt Date: 2014-04-03, 23:23:00 GMT [RP, KW]
ここ見れば全ての情報があるんだけど、16進数だらけでよくわからんから10進数化しただけ。

当然だけど、若い数字はほぼ埋まってる。CJK Unified Ideographsは領域使いすぎ。他の領域が100くらいなのに2万てwそりゃ6536文字は破綻ですわ。
ハングルも結構取ってるね。あれって組み合わせて使う文字だと思うけど、どこまで収録してんだろ?CJK Unified Ideographs Extension Bとか4万文字w 「サロゲートペアがあるからもう遠慮しなくていいよね。これ全部違う文字だから収録よろしく^^」的な
サロゲートペア含めたunicodeの全領域は111万2,064文字。今のところ使ってる領域は25万6084文字分。ipv6並みに余裕じゃないけど、絵文字をバカスカ追加するくらいは出来そうだ。 差分とか面白そうだからナマのテキストもペタリ
テキストの整形しただけのjsはこちら。次回も使えるといいな


よく考えたらインターネットアーカイブで見れた Internet Archive Wayback Machine
うーん、軽く差分見てみたけどあんま面白い情報は無いな。変わってるね。ふーん って感じ

コメントを残す

ブログオーナーにだけ送信したいメッセージはメール欄にどうぞ。名前とメール欄は任意。