このページは以下の「ITパスポート シラバス6.3」学習用コンテンツです。
◆大分類:7.基礎理論
◆中分類:13.基礎理論
◆小分類 | ◆見出し | ◆学習すべき用語 |
---|---|---|
35.情報に関する理論 | (3) 文字の表現 | JIS コード シフト JIS コード Unicode |
初期のコンピューターはASCII((American Standard Code for Information Interchange)で英数字記号の128文字となり、日本語文字セットを用意する必要性から「JISコード」が策定されます。
その後拡張版となる「シフトJISコード」が開発され、Windows 95/98/Me/2000/XPなどに標準搭載されていました。
しかし、2000年後半からは標準規格となる「Unicode」が主流となっています。Unicodeの符号化方式としてUTF-8、UTF-16、UTF-32などがありますがWEBを中心に「UTF-8」が主流になっています。
Unicodeは世界で使われる全ての文字を共通の文字集合にて利用できるように考案された単一の大規模文字セットです。ゼロックスにより提唱され3度にわたるUnicode Draftが提唱され、1991年1月にUnicode Final Draftに賛同する企業によってユニコードコンソーシアムが設立されバージョンを重ね、現在の主流となっています。
JISコード
JISコードは日本工業規格によって制定された日本語用の文字コード体系で、最も初期の形式はJIS X 0201です。
その後、漢字を扱えるように拡張されJIS X 0208やJIS X 0212などが追加されました。特にJIS X 0208は6,879文字の漢字と524文字の非漢字を収録しています。
文字の管理は「面区点番号」という方式を用いており、94×94の表形式で構成されています。現在でも一部のレガシーシステムで利用されていますが、Unicodeへの移行が進んでいます。
なお、現在でもJISコード(符号化方式:ISO-2022-JP)は電子メールの文字コードに使用されています。
JISコードに関する学習用問題
問題
JISコードの中で漢字が収録されている規格として最も広く使われているのはどれですか?
- JIS X 0201
- JIS X 0208
- JIS X 0212
%%replace6%%
正解
2 JIS X 0208
解説
JIS X 0208は漢字を6,879文字収録しており最も広く使用されています。
JIS X 0201はカタカナなどを収録していますが漢字は含まれていません。JIS X 0212はさらに追加の漢字を収録していますが、使用範囲は限定されています。
問題
JISコードの文字を管理するために使われている方式は何ですか?
- バイトコード
- 面区点番号
- シフトJIS番号
%%replace6%%
正解
2 面区点番号
解説
JISコードでは文字は「面区点番号」という方式で管理されています。94×94のマス目を使って文字を管理し、漢字やその他の文字を体系的に扱っています。
シフトJISはエンコーディング方式の一つであり、面区点番号とは異なります。
問題
JISコードの中で最初に制定された規格はどれですか?
- JIS X 0208
- JIS X 0212
- JIS X 0201
%%replace6%%
正解
3 JIS X 0201
解説
JIS X 0201は1969年に制定された最初の日本語用文字コード規格です。カタカナなどの文字を含んでいますが漢字は含まれていません。
JIS X 0208やJIS X 0212はその後に拡張された規格です。
シフトJISコード
シフトJISコードはJISコードを基に開発されたエンコーディング方式です。
1バイトの英数字や2バイトの漢字を混在して表現でき、Windowsの日本語環境で標準的に利用されてきました。特にJIS X 0208の文字セットに基づいており、文字コードの互換性が高いのが特徴です。
現在ではUnicodeへの移行が進んでいますが、レガシーシステムで依然として利用されています。
シフトJISコードに関する学習用問題
問題
シフトJISコードの主な特徴はどれですか?
- 文字を1バイトまたは2バイトで表現できる
- 文字を3バイトで表現する
- 世界中の文字を統一的に扱う
%%replace6%%
正解
1 文字を1バイトまたは2バイトで表現できる
解説
シフトJISは1バイト文字(英数字など)と2バイト文字(漢字など)を混在して扱うことができます。英語と日本語が同時に扱えるという利点があります。
3バイトや世界の文字を扱うのはUnicodeの特徴です。
問題
シフトJISコードが最も標準的に利用されていた環境はどれですか?
- Linux
- Windows日本語版
- macOS
%%replace6%%
正解
2 Windows日本語版
解説
シフトJISコードは特にWindows日本語版で標準的に採用されてきました。
LinuxやmacOSは他のエンコーディング方式(特にUnicode)が主流です。
問題
シフトJISコードが混在させて扱えるものはどれですか?
- UTF-8とEUC-JP
- 1バイト文字と2バイト文字
- JISコードとUnicode
%%replace6%%
正解
2 1バイト文字と2バイト文字
解説
シフトJISコードは、1バイト文字(主に英数字)と2バイト文字(漢字など)を混在させることができるエンコーディング方式です。
UTF-8とEUC-JPや、JISコードとUnicodeは文字コードの異なる規格ですので混在できません。
Unicode
Unicodeは世界中のすべての文字を統一的に扱う国際規格の文字コードで、UTF-8、UTF-16、UTF-32などの文字符号化形式があります。
特にUTF-8はインターネットで広く使用されています。Unicodeは多言語対応に優れており、文字化けのリスクを低減させるため、現在ではほとんどのシステムで採用されています。
Unicodeに関する学習用問題
問題
Unicodeの文字符号化形式として正しいものはどれですか?
- UTF-8、UTF-16、UTF-32
- ASCII、JIS、UTF-8
- シフトJIS、UTF-16、ISO 8859-1
%%replace6%%
正解
1 UTF-8、UTF-16、UTF-32
解説
Unicodeには主にUTF-8、UTF-16、UTF-32という3つの文字符号化形式が存在します。これらは異なるエンコーディング方式ですがすべてUnicodeの一部です。
ASCIIやJISは別の文字コード体系です。
問題
UTF-8の特徴は何ですか?
- 1バイト固定長で文字を表現する
- 可変長で1~4バイトを使用する
- すべての文字を2バイトで表現する
%%replace6%%
正解
2 可変長で1~4バイトを使用する
解説
UTF-8は1~4バイトの可変長エンコーディングを使用するため、メモリ効率が良く、多くのウェブシステムで採用されています。
1バイト固定長ではなく、文字によって使用バイト数が異なります。
問題
Unicodeが広く採用されている理由は何ですか?
- 日本語のみを効率的に扱えるから
- 文字化けを減らし多言語対応が可能だから
- すべてのシステムで必須だから
%%replace6%%
正解
2 文字化けを減らし多言語対応が可能だから
解説
Unicodeは世界中の文字を統一的に扱うため文字化けの問題を大幅に減らし、多言語対応を可能にします。
日本語のみではなく、あらゆる言語に対応できる点が強みです。