パソコンで使う文字の大文字・小文字・全角・半角の区別について考える

パソコンの基礎

はじめに

今日、ホームページのURLを整理していたら、どうしてもエラーになって開かないページがありました。何度も何度も正確に綴りを確認しながら手入力しているのに、うまくいきません。

そこでFTPでサーバーに直接アクセスしてフォルダー名をコピーし、ブラウザのURLに貼り付けて試してみたところ、すんなりページが開いたんです。綴りは全く同じなのに、よくよく見ると開いた方の綴りにはアルファベットの大文字が含まれていました。

以前もここで時間をとられたので、今後間違いないように整理して皆さんと共有したいと思います。

パソコンで文字を入力する場面

パソコンを使っていて文字列を入力する場面として、次のようなケースがあります。

  • パソコンのログイン時のユーザー名とパスワード
  • ホームページのベーシック認証
  • ドメイン名
  • URL
  • メールアドレス
  • WordPressなどの管理画面へのログイン
  • Windowsのフォルダー名、ファイル名

今回は代表的な例として、上記の入力ルールを確認していきます。

文字入力の基礎知識

パソコンで扱う文字には、数字・アルファベット・記号・日本語があります。日本語にも漢字・ひらがな・カタカナがあります。

英語圏では日本語がありませんので、文字は数字とアルファベットと記号だけです。一般的にユーザー名やパスワード、ログイン情報などでは日本語を使いませんので、今回は数字・アルファベット・記号の3つで考えます。

なお私は基本的にWindowsユーザーなので、Windowsを中心にお伝えします。

全角と半角を理解する

日本人特有の全角と半角の違いについて理解する必要があります。実はワープロ時代からキーボード入力に携わってきた人には難しい話ではありません。

ワープロ時代の方眼紙

ワープロで入力していた時代、文字が入力される画面は方眼紙のように正方形の枠が並んでいました。その正方形の1つ1つに漢字やひらがなが入るイメージです。

全角は、この正方形の枠いっぱいに1文字が入る大きさです。日本語の漢字・ひらがな・数字・アルファベット・記号が該当します。

半角は、正方形の半分の幅の文字です。つまり1つの枠に2文字入る大きさになります。
例えば全角で「1234」と打つと4マス必要ですが、半角なら2マスで済みます。

ワープロを使っていた人は画面にマス目が表示されるので当たり前の話でした。

ところがパソコンになってからこのマス目がなくなり、フォントの種類によって文字の横幅が異なるため、全角半角の区別が一目瞭然でなくなってしまいました。

英語圏と日本での違い

実はこの全角半角の区別があるがゆえに、英語圏のパソコンのユーザーは苦労することになります。もともとパソコンはアメリカなどで開発されたので、アルファベット・数字・基本記号は半角1バイトで十分でした。全角(2バイト)の概念自体が日本向けに後から追加されたものです。

英語圏の標準パソコン(USキーボードなど)では、全角の漢字・ひらがな・カタカナを入力する機能がそもそも搭載されていません。日本語IMEを別途インストールしない限り、日本語入力ができないわけです。

データ容量の話

半角のことを1バイトと言います。テキストで100文字の半角文字を入力すると100バイトになります。日本語は1文字2バイトです。

今ではフロッピーディスクはほとんど使われていませんが、実はまだ会計事務所などでは現役で使われている場合があります。会計事務所で扱う経理のデータは、画像や動画がなく、日本語と記号と数字だけです。容量がたかが知れているため、フロッピー1枚(約1.4MB)でも十分なんです。

新聞1日分のテキストは約30万文字(600KB)で、フロッピー1枚に余裕で入ります。1枚の写真(4MB)が収まらないのに、テキストなら数十万文字収まるわけです。

大文字と小文字の区別

大文字と小文字の区別は、アルファベットだけです。数字には全角・半角の区別はありますが、大文字・小文字の区別はありません。漢字やひらがな、カタカナも同様です。

中学の英語で最初に習うのは、英語の文頭は「大文字」にする、というルールでした。そのため、日本でパソコンを使っているときも、アルファベットを入力すると先頭のみ大文字になることがあります。

紛らわしい文字

アルファベットの大文字と小文字、数字の区別がつかない場合があるのが厄介です。

  • C と c
  • K と k
  • l(エル)と 1(数字のイチ)
  • O と o と 0(数字のゼロ)
  • P と p
  • S と s
  • V と v
  • b と d
  • g と q と 9(数字のキュウ)

こうした紛らわしさを避けるため、私はメールアドレスを作成してパスワードを発行する際、必ず「読み」を一緒に載せています。

具体例:

  • L1p9X020 (エル,イチ,ピー,キュウ,エックス,ゼロ,ニ,ゼロ)

メールアドレス作成ルール

メールアドレスを新規作成する場合、世界標準の規格(RFC 5322)では次のルールが定められています。

使える文字:

  • 半角英数字(A〜Z、a〜z、0〜9)
  • 一部の半角記号:! # $ % & ‘ * + – / = ? ^ _ { | } ~ . など

使用禁止:

  • ドット(.)を先頭や末尾に使用
  • ドット(.)の連続使用
  • @の直前にドット
  • 全角文字の使用

文字数制限:

  • @より前:最大64文字
  • @より後:最大253文字
  • 全体:最大254文字

ただし、2009年4月以前の日本の大手キャリア(docomo、au、ソフトバンク)では、規格違反のメールアドレスが作成可能でした。例えばドットを先頭や末尾に使ったり、ドット3つ連続などです。現在は新規作成できませんが、以前に作られたものは今も使用可能で、他のメールサービスから送信できない場合があります。

アルファベットとローマ字の違い

「Aとaは、ローマ字の大文字と小文字の例です」
「Aとaは、アルファベットの大文字と小文字の例です」

どちらも正しいように感じますが、実は違いがあります。

アルファベットは文字そのものの集合を指す言葉で、英語で使うA〜Z 26文字の「文字セット」のことです。

ローマ字は日本語の音(かな)を、そのアルファベットを使って書き表す「ルール(つづり方)」のことです(例:か→ka、き→ki)。

つまり、アルファベット=「材料(文字)」、ローマ字=「その材料を使った日本語表記の方法」という関係です。

本題:小文字と大文字の区別が必要か

実践的に必要な知識は、小文字と大文字の区別が必要か否かです。
前提として、半角と全角は常に別物として区別され、通常は半角のみ使用します。
パスワードは常に小文字と大文字を区別します。

小文字と大文字の区別がない場合

  • Windowsのユーザー名
  • WordPressのユーザー名
  • メールアドレス
  • Windowsのファイル名やフォルダー名

つまり「User」「USER」「user」すべて同じものとして扱われます。

私が実際に自分のメールアドレスで大文字と小文字を混ぜて送信テストをしてみたところ、Gmailにも自分のドメインのメールアドレスにも無事届きました。メールアドレスについては、大文字と小文字の区別はないということですね。

小文字と大文字の区別がある場合

  • ベーシック認証のユーザー名
  • パスワード(すべて)

残るのは、ドメイン名とURLです。

ドメイン名とURLの検証

一般的にドメイン名は半角の小文字が使われます。

試しに https://www.yahoo.co.jp/ を大文字混じりの HtTps://wWw.Yahoo.cO.Jp/ でアクセスしてみたところ、すぐに小文字だけの https://www.yahoo.co.jp/ に変換されてヤフーのホームページが表示されました。ブラウザが自動認識して修正するようです。

サイトのトップ(ルート)のURL

https://example.jp/ については、大文字と小文字は区別されませんでした。

個別ページのURL

ここが今回の記事のきっかけです。

https://example.com/movie/index.html と入力すると「Not Found」エラーが出ましたが、https://example.com/Movie/index.html と大文字を正しく入力すると無事表示されました。

通常はindex.htmlは省略して大丈夫なのですが、大文字の入ったフォルダー名では省略するとエラーになりました。

また、一度表示できると、その後は https://example.com/movie/ を入力した瞬間に https://example.com/Movie/ に自動的に切り替わって表示されました。
ブラウザが覚えてくれるせいかもしれません。

WordPressのパーマリンク設定について

WordPressの管理画面で最初にする設定に「パーマリンク」があります。ここで「投稿名」の入ったパーマリンクにすると、記事の投稿名が日本語だった場合、記事のリンク名は日本語になります。

例:https://www.example.com/テキストの大文字と小文字について/

このアドレスをメールなどでコピーして貼り付けて送付しようとすると、https://www.example.com/80%8f%b9%b4%88%e5%8f%b7・・・/ のように文字化けしてしまいます。これはパーセントエンコーディング(URLエンコーディング)という仕組みで、日本語などの特殊文字をURLで使える文字に変換したものです。

結論とまとめ

私の今回の検証の結果をまとめると、次のように整理できます。

サイトのトップ(ルート)のURL

個別ページのURL

  • 文字の大小の区別がある
  • 小文字と大文字を間違えるとページはエラーで表示されない

ドメインを使ったホームページのURLについては、少しややこしいですが、特に個別ページのURLでは大文字小文字の区別があることを覚えておくといいでしょう。

おわりに

パソコンの世界における日本語の位置づけや、特殊文字の区別については別の機会にお話ししたいと思います。
これを理解すると、海外の人とメールでやり取りする際に使ってはいけない文字列があることや、文字化けの謎、ホームページ作成の際のルールが理解できるようになります。


関連講座のご案内

この記事で扱ったパソコンの基本的な知識をもっと体系的に学びたい方には、以下の講座をご用意しています。

  • パソコンの基本・原理原則の講座
  • ホームページ作成・運営の初めの一歩の講座(WordPress/SWELL)
  • 情報整理術の講座(ザガネ式+マンダラチャート+マインドマップ)

独学で進めたい方にも、講座で学びたい方にも、それぞれに役立つ情報をお届けしています。

タイトルとURLをコピーしました