< Back

異体字の世界 【サイトウ】

異体字の世界 サイトウ

こんにちは。オープンロジの @ykhirao です。こちらは OPENLOGI Advent Calendar 2019 4日目の記事になります。

内容については、以前 pͪoͣnͬpͣoͥnͭpͣa͡inͥを支える技術 - Qiita という記事を書かせてもらったので、その続きでまた文字コードを扱った記事を書いていきたいと思います。どうぞ最後までよろしくお願いします!!

長いので結論

戸籍統一文字情報では 斎藤斉藤 は別の漢字として扱われているので、「サイトウさん、漢字はどのように書くのですか…?」と聞いたほうが無難な気がします。 ただ 斎藤 って書くと 62.2% 正解で、 斉藤 と書くと 30.3% 正解になります。

漢字 戸籍数(たぶん) %
斎藤 150494 62.2
斉藤 73424 30.3
齋藤 17071 7.1
齊藤 1111 0.5
合計: 242100 100

また法務省によると、旧自体と新字体が乗っていますので、

# 法務省
齋藤 → (新字体) → 斎藤
齊藤 → (新字体) → 斉藤

ここも考慮すると 斎藤 と書くと 69.3% 正解で、 斉藤 と書くと 30.7% 正解になります。

また子供のころに が難しかったので と書いていたケースも考えると、この二つの差は少し縮まりまるかもしれません。

とりあえず確立論的には と書けば…なんとなく、あたるかも…しれない?
(ちゃんと本人に確認とりましょう!!!)

拝啓 斎藤さん

先日エンジニアとしてサイトウさんが入社したときに「サイトウのサイってどう書きますか…? Unicodeで教えてください。」という、いつものあれが発生したのでそろそろサイトウについて理解してみようと思いました。

また以前に 『異体字の世界”ワタナベ”』| 漢検 漢字博物館・図書館 [漢字ミュージアム] というイベントがあったのでタイトルはそこから来ています。(展示にはいけてません…)

周辺知識編

Wikipedia

(ここから クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)

Wikipediaで一つの項目となっているのは 斎藤斉藤 のみみたいです

この2つのWikipediaで重要なことは、 斎藤「斎宮頭を務めた藤原氏」の略 で、 についてはただの誤記説 (「斉」の文字に本来「さい」の読みがないことから斎藤の誤記が由来と言われる) が濃厚みたいです。

また法務省で定められている漢字としては、以下のように落ち着いているみたいです。

旧字体 新字体

(ここまで クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)

ですので、現状 の新字体ではないので、小学生のときに「簡単な方」として書いていたケースを除いて、 2種類別の漢字として扱われているので正式な文章を書くときは2種類だけ気をつけたらよさそうです。

(ここから クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)

また斎藤のページ によると、斎の派生は31種類あるみたいで、画像がはられています。

// 画像の注釈として
「斉藤」または「斎藤」の一文字目に使用される異体字はあわせて31種類あると言われている。

とありますが、それは後ほど出てくる 高信幸男氏 による調査による "西藤","西塔","才藤","済藤","西頭","西等","佐井藤","再藤" なども含んだ話なので、はられている画像と説明が食い違っているように思えます。が一旦は無視します。

また31種以外にも この他に例えば埼玉県の電話帳には齋の字の亠の下が刀丫氏の並びになっている齋藤姓が確認出来る。 との記載があり、どんどん派生しているのかもしれません。

(ここまで クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)

TBSテレビ『この差って何ですか?』

また 「斎藤」「斉藤」「齋藤」「齊藤」・・この差って何? | 東洋経済オンライン名字研究家 高信幸男氏 からの情報がまとめられてますが、法務省が定めた見解とは少し違っていて

明治時代になると(略)国民全員に名字(略)多くの庶民が役所に行き、名字を申請した(略)

(中略)

役人はそれぞれ思い思いの「サイトウ」を書いてしまった(略)

具体的には「齋藤」は旧字体で書いてしまったパターンで、「齊藤」は旧字体の書き間違い。そして「斉藤」は本来の「斎藤」の書き間違い、というのだ。

とあるので、 の派生は としているところが面白いです。

# 法務省
齋 → 斎
齊 → 斉

# 高信幸男氏
齋 → (書き間違い) → 齊
↓
↓ (新字体)
↓
斎 → (書き間違い) → 斉

真実はいつも一つだと思いますが、文明開化の音とともに闇に消え去ったと思います。

また「サイトウ」と読む姓が31種類存在しているみたいで、人数の多い順に ["斎藤","斉藤","齋藤","齊藤","西藤","西塔","才藤","済藤","西頭","西等","佐井藤","再藤"] となっています。

三省堂 ことばのコラム

第78回 「斎」と「齋」 | 人名用漢字の新字旧字(安岡 孝一) | 三省堂 ことばのコラム によると の横棒の長さの揺れが出生届を出すときにすごく揺れていたみたいで、平成22年11月30日 に正式に 改定常用漢字表 で今の になったみたいです。結構最近ですね。

出来事 年代 漢字
標準漢字表 昭和17年6月17日 示
当用漢字表 昭和21年11月16日 小
戸籍法が改正 昭和23年1月1日 名付けに使用できるのは当用漢字表
漢字コード 規格
JIS C 6226
(コンピュータ表記)
昭和53年1月1日 示
常用漢字表 昭和56年10月1日 小
名付けに使用 (S56 ~ H22) 小
コンピュータ表記 (S56 ~ H22) 示
改定常用漢字表
コンピュータ表記と名付けでの表記が変わった
平成22年11月30日 示

漢字とは面白いですね。

調査と終えて今後の記事の目標

  • 斎という31字のユニコード特定

以上踏まえてコードなどを追っていきましょう。

Unicodeを特定する

Google 日本語入力から探す

サイトウ で変換できたそれっぽい字。(さんずいを除くと5字見つかった)

斎
斉
齋
齊
齎
済
濟
元の漢字 JS CODE UTF-16 コード(10進数) (16進数)
'斎'.charCodeAt(0) 25998 658E
'斉'.charCodeAt(0) 25993 6589
'齋'.charCodeAt(0) 40779 9F4B
'齊'.charCodeAt(0) 40778 9F4A
'齎'.charCodeAt(0) 40782 9F4E
'済'.charCodeAt(0) 28168 6E08
'濟'.charCodeAt(0) 28639 6FDF
// MACだと command + alt + i で開発ツールが開くのでConsoleなどで試してください。
$ ''.charCodeAt(0)
25998

$ String.fromCharCode(25998)
""

$ String.fromCharCode(0x658E)
""

10進法でいうと 2599840779 のあたりに サイ が固まってそうな雰囲気がしますね。

Unicodeと漢字をマッピングしてくれるサイトを探す

グリフウィキに登録されているグリフデータおよび記事は、誰もが自由に利用できることとします。あらゆる改変の有無に関わらず、また商業的な利用であっても、自由に利用、複製、再配布することができます。著作者表示も特に制限を設けません。新しいフォントのベースデータとして用いることや、そのままコピーしたものをフォントとして著作物とすることを妨げません。記事中に引用されている部分については、グリフウィキには著作権はありませんので引用元のライセンスを確認してください。

https://glyphwiki.org/wiki/GlyphWiki:データ・記事のライセンス

とても使いやすそうなライセンスなのでこのページをメインで調べてみようと思う。

グリフウィキを広めてください
登録されているグリフの画像やフォントをどんどん利用してください。画像やフォントに直接リンクを張ってもかまいません。またグリフウィキの存在をクチコミでみんなに広めてください。

https://glyphwiki.org/wiki/GlyphWiki:あなたにできること

またグリフウィキさんを広めるのは正義みたいなので、、私の代わりに使ってくれ。画像への直リンク可みたいなので使うことにする。

先程の へのリンクを確認する限り、Unicodeとして定義されているのは、さきほどあげた5種類の サイ だけなのではないかと思い初めてきた…。その他は 法務省 が規定する戸籍関連の字とか、中国語字体とか…なんかそういうのも含めている気がする。

の異体字・関連文字データ抽出する

// データ作成
const td = document.querySelector('body > div.right_pane > div.right_body > div:nth-child(15) > table > tbody > tr:nth-child(2) > td:nth-child(3)')
const arr = [...td.querySelectorAll('a>img')]
arr.map(x => `${x.parentNode.href}\t${x.parentNode.innerText.trim()}`).join('\n')
arr.map(x => x.src).join('\n')

斎 u658e の異体字は32個登録されていて、右月になっている u9f4b-02 の系統の u9f4b-02 u9f4b-02-var-001 u9f4b-02-var-002 u9f4b-02-var-003 の4つを除き、 斎 u658e の一文字足すと、29個確認された。

コード サイトリンク 画像
u658e https://glyphwiki.org/wiki/u658e
u9f4b https://glyphwiki.org/wiki/u9f4b
u9f4b-02 https://glyphwiki.org/wiki/u9f4b-02
u9f4b-02-var-001 https://glyphwiki.org/wiki/u9f4b-02-var-001
u9f4b-02-var-002 https://glyphwiki.org/wiki/u9f4b-02-var-002
u9f4b-02-var-003 https://glyphwiki.org/wiki/u9f4b-02-var-003
u9f4b-itaiji-001 https://glyphwiki.org/wiki/u9f4b-itaiji-001
u9f4b-j https://glyphwiki.org/wiki/u9f4b-j
u9f4b-ue0101 https://glyphwiki.org/wiki/u9f4b-ue0101
u9f4b-var-001 https://glyphwiki.org/wiki/u9f4b-var-001
u9f4b-var-002 https://glyphwiki.org/wiki/u9f4b-var-002
u9f4b-var-003 https://glyphwiki.org/wiki/u9f4b-var-003
u9f4b-var-004 https://glyphwiki.org/wiki/u9f4b-var-004
u9f4b-var-005 https://glyphwiki.org/wiki/u9f4b-var-005
cbeta-30389 https://glyphwiki.org/wiki/cbeta-30389
cbeta-31099 https://glyphwiki.org/wiki/cbeta-31099
jmj-059306 https://glyphwiki.org/wiki/jmj-059306
juki-ad38 https://glyphwiki.org/wiki/juki-ad38
juki-ad39 https://glyphwiki.org/wiki/juki-ad39
juki-b720 https://glyphwiki.org/wiki/juki-b720
koseki-548960 https://glyphwiki.org/wiki/koseki-548960
toki-01001950 https://glyphwiki.org/wiki/toki-01001950
toki-01066230 https://glyphwiki.org/wiki/toki-01066230
u2ff5-u2ff3-u4ea0-u6c36-cdp-89c6-u5c0f https://glyphwiki.org/wiki/u2ff5-u2ff3-u4ea0-u6c36-cdp-89c6-u5c0f
zihai-014012 https://glyphwiki.org/wiki/zihai-014012
zihai-014103 https://glyphwiki.org/wiki/zihai-014103
zihai-014137 https://glyphwiki.org/wiki/zihai-014137
zihai-014217 https://glyphwiki.org/wiki/zihai-014217
zihai-014218 https://glyphwiki.org/wiki/zihai-014218
zihai-014223 https://glyphwiki.org/wiki/zihai-014223
zihai-020358 https://glyphwiki.org/wiki/zihai-020358
hkcs_m9f4b https://glyphwiki.org/wiki/hkcs_m9f4b
hkcs_u9f4b https://glyphwiki.org/wiki/hkcs_u9f4b

そして残念ながらこれらの字体は、ほとんどがUnicodeには登録されていなくて

[異体字(常用漢字表)]
[異体字(戸籍統一文字)]
[異體字(民國教育部)]
[異體字(漢語大字典)]
[関連字(JIS X 0212)]

などに定義されているみたいである。

koseki-548960 となっている文字の正確な情報は 法務省の戸籍統一文字情報 http://kosekimoji.moj.go.jp/kosekimojidb/mjko/PeopleTop/EXECUTE から探すことになる。

もしくは後術する MJ文字情報検索システム | 独立行政法人 情報処理推進機構 - IPA から探す。

の異体字・関連文字データを抽出する

とりあえず関連データを引っ張ってきた。少なかったのといろいろあって手作業。

コード サイトリンク 画像
u6589 https://glyphwiki.org/wiki/u6589
u658a https://glyphwiki.org/wiki/u658a
u4e9d https://glyphwiki.org/wiki/u4e9d
u9f4a https://glyphwiki.org/wiki/u9f4a
u2bfed https://glyphwiki.org/wiki/u2bfed
u2d918 https://glyphwiki.org/wiki/u2d918
u2ebbc https://glyphwiki.org/wiki/u2ebbc

unicodeにありそうな上4つを見てみた。下3つは桁が一つ多い…?

String.fromCharCode(0x6589)
""
String.fromCharCode(0x658a)
""
String.fromCharCode(0x4e9d)
""
String.fromCharCode(0x9f4a)
""
String.fromCharCode(0x2bfed)

MJ文字情報検索システム | 独立行政法人 情報処理推進機構 - IPA

良い感じのサイトを見つけた。

Screenshot from 2019-11-29 18-58-02.png

IPAが文字情報を統一的に調べられるようにしている。信頼できそう。

なんとなく細かいところを比べてみる

斎 の異体字・関連文字データ抽出する で抽出したデータの細かいところを見ていきましょう。

コード 画像 真ん中
u9f4b ①普通の鍋蓋 Y ①氏みたいなやつ ① 示で上が左右くっついている、下はねなし
u9f4b-itaiji-001 ②ちょんと鍋蓋 ② 普通の示、下はねあり
u9f4b-j Y
u9f4b-ue0101
u9f4b-var-001 Y ⑤ ①の下跳ねあり版
u9f4b-var-002 Y ③ ①の示すに見せかけて右側がくっついてない
u9f4b-var-003 Y ④ ③の小の下がはねてない
u9f4b-var-004 Y
u9f4b-var-005 Y ⑥ ①で上の右側だけくっついてない
jmj-059306
juki-ad38 ②氏のパート2
juki-ad39
juki-b720 Y ⑦ ②の下はねなし版
koseki-548960
toki-01001950
toki-01066230 Y
u2ff5-u2ff3-u4ea0-u6c36-cdp-89c6-u5c0f 水と永の間 水と永の間 水と永の間
zihai-014137 Y ⑧ 丙みたいなやつ
zihai-014217 Y ⑨ 米
zihai-014218 Y
zihai-014223
hkcs_m9f4b Y
hkcs_u9f4b Y ⑩ ①と②の中間くらい

作っている途中(23:11)で力ついて途中適当になりました。なんか雰囲気たくさん種類あるんだなーーーくらいに思っておいて、正確さは求めないでください。

まとめ

長い記事を読んでいただきありがとうございました!!!

サイトウは誤字から生まれたのはちょっとおもしろかったです。w

お疲れ様でした。!!!


.