SKYPCEにおける名刺のデータ化において、字形が似ている「異体字」の取り扱いや照合に関する工夫を解説している。複数の情報源による異体字の定義を整理し、適切な文字データを抽出する仕組みについて紹介する。
SKYPCE開発チームです。
SKYPCEでは日夜さまざまな名刺のデータ化を行っています。
名刺のデータ化に際しては、取り込まれた名刺の文字が少しだけ違う形のもの、点が一つ多いようなものなど、似通った字形を持つ漢字(= 異体字 )にも注意しています。
今回は、異体字 のデータ化の際の工夫についてご紹介します。
1. そもそも異体字とは?
異体字とは、広義だと字形が近しい文字のことです。
意味が異なる漢字でも、字形が近ければ異体字扱いされる場合もありますが、
分かりやすいものとしては旧字体が代表的なものかと思います。
また、狭義では、異体字セレクタ(IVS)を持つものなどが異体字に分類されます。
2. 異体字の定義は?
異体字の定義についていろいろ調べて表に整理してみました。
どの情報源に依拠した定義にするかに依りますが、参考となる情報源だけでも以下があります。
| 定義 | 言語 | 概要 |
|---|---|---|
| JIS X 0212 | 日本語 | JIS X 0212という日本語用の文字集合(JIS補助漢字)を規定する産業規格に記載されている異体字 |
| JIS X 0213 | 日本語 | JIS X 0213という日本語用の文字集合(JIS拡張漢字)を規定する産業規格に記載されている異体字 |
| 人名漢字表の同一文字 | 日本語 | 人名漢字表(常用漢字以外に戸籍利用可能な漢字を集めたもの)で同一の字種とされる漢字 |
| 人名漢字表の異体字 | 日本語 | 人名漢字表(常用漢字以外に戸籍利用可能な漢字を集めたもの)で規定される異体字 |
| 常用漢字表の新旧字 | 日本語 | 常用漢字表(文科省の定める現代国語の漢字使用目安)に記載されている新旧字関係(「浜⇔濱」のようなもの)。 |
| 表外漢字字体表の定義 | 日本語 | 表外漢字字体表(2000年の国語審議会答申で示された頻出する表外漢字の「印刷標準字体と簡易慣用字体」の対応表)に記載の定義(攪⇔撹など) |
| 5200号通達の正字俗字関係 | 日本語 | 戸籍の氏名の記載について正字⇔俗字の関係を整理した法務省の通達。 https://www.soumu.go.jp/main_content/000164373.pdfのP52~から記載。 |
| 拡張新字体 | 日本語 | 常用漢字以外の漢字のうち、旧字体しかないものに他漢字の新字体の部品を類推であてはめたもの。2000年の「表外漢字字体表」制定に伴いほとんど使用されなくなった。 |
| 同音書換文字 | 日本語 | 第32回国語審議会総会報告(1956年)に基づく同音の文字で置換される熟語の一覧。廻転→回転や火焰→火炎 など。 |
| 戸籍統一文字 | 日本語 | 戸籍統一文字データベース(法務省が戸籍で利用可能な文字を整理したもの)で定義があるもの。 |
| 入管正字 | 日本語 | 日本に入国する際の証明書等で用いるもので、他国の漢字を日本が定める感じに置換する(簡体字→日本の正字)。平成23年12月26日法務省告示第582号に規定。簡体字⇔正字のような関係性。 |
| MJ縮退マップ | 日本語 | 戸籍統一文字と住民基本台帳統一文字を整理した文字情報基盤の文字とJIS規格の文字集合の関係を示すMJ縮退マップに基づいた定義。 |
| 登記統一文字縮退マップ | 日本語 | 登記統一文字を整理した文字情報基盤の文字とJIS規格の文字集合の関係を示す登記統一文字縮退マップに基づいた定義。 |
| 原規格分離 | 国際 | UCS(文字コードの国際規格でUnicodeと概ね互換)の原規格分離表に定義されたもの。原規格分離とは、字形が似ていても原典が区別していたら分けて登録する規則のことであり、分けられた文字が表になっている。 |
| 第一批異体字整理表 | 中国語 | 第一批異体字整理表(中国文化部と漢字改革委員会が発行したもの)の定義。 |
| 旧第一批異体字整理表 | 中国語 | 第一批異体字整理表の定義から「異体字」ではないと判断されて削除された漢字。 |
| 漢語大字典異体字表 | 中国語 | 漢語大字典(中国の字書)の異体字表。 |
| 繁簡関係 | 中国語 | 簡化字総表・第一批異体字整理表・通用規範漢字表・GB 2312/7589/7590に基づく中国語の繁体字簡体字の変換表。 |
| 漢語大字典通假字表 | 中国語 | 漢語大字典(中国の字書)の通假字(字音が同じ漢字を、字義も同じとみなして転用すること)の定義。 |
| 康熙字典 | 中国語 | 康熙字典(中国の漢字字典)古文として掲載されているもの。 |
| 教育部異体字字典 | 中国語 | 台湾の「國際電腦漢字及異體字知識庫 」に基づいた定義。 |
| 教育部異体字字典 | 中国語 | 台湾の教育部異体字字典 に基づいた定義。 |
| 中華字海 | 中国語 | 中国の漢字字典である中華字海(1994年)に基づいた定義。 |
| 漢語大字典 | 中国語 | 中国の字書である漢語大字典(第二版、2010年)に基づいた定義。 |
| 龍龕手鏡研究 | 中国語 | 10世紀の写本仏典に現れる異体字を網羅的に収めた研究書である鄭賢章『龍龕手鏡研究』(2004年)に基づいた定義。 |
| 漢語俗字叢考 | 中国語 | 中国語常用文字の研究書である張涌泉『漢語俗字叢考』(2000年)に基づいた定義。 |
| 漢語俗字新考 | 中国語 | 中国漢字の研究論文である张涌泉「汉语俗字新考」『浙江大学学报(人文社会科学版)』(2005年)に基づいた定義。 |
| 疑難字考釋與研究 | 中国語 | 「漢語大字典」「中華字海」に収録されている疑難字の考釈書である楊宝忠『疑難字考釋與研究』(2005年)の定義。 |
| 疑難字續考 | 中国語 | 「漢語大字典」「中華字海」に収録されている疑難字の考釈書である楊宝忠『疑難字續考』(2011年)の定義。 |
| 字典考正 | 中国語 | 「漢語大字典」「中華字海」の誤字脱字を検証、修正したものである邓福禄、韩小荆『字典考正』(2007年)の定義。 |
| 可洪音義研究 | 中国語 | 仏教経典の音と意味についての研究書である韓小荊『《可洪音義》研究』(2009年)の定義。 |
| 字喃 | 越南語 | 字喃における異体字。漢字をもとにして作られたベトナムの民族文字。 |
| 漢越語研究 | 越南語 | ベトナム漢字の研究書である王力「漢越語研究」『嶺南學報』(1948年)内の定義。 |
例えば「戸籍統一文字」は「日本の戸籍システムにおいて戸籍に記載できる文字」として
以下4つの基準をもとに法務省が定義したものです。
- 漢和辞典に掲載された正字等および俗字などの文字
- 常用漢字および人名用漢字
- 規則又は通達等による俗字などの文字
- 規則、通達または先例などにおいて、戸籍に記載可能な文字と判断された文字
4番の条件により、過去の紙の戸籍謄本の手癖のような文字も登録されているため、
このデータベースには約56,000字が登録されています(常用漢字は2,136字、常用外でも~6,000字)。
3. 名刺のデータ化の際の工夫
可能な限り集められた異体字の情報をもとに
「齋」の異体字を調べてみると以下の結果になりました。
中国語の辞書由来の異体字定義は特に、字形がかけ離れたものも
歴史的な背景を踏まえた字義のところで繋がりを持っていたりするようです。

ただ、上記の定義すべてを網羅すると、明らかに字形が異なるような文字も含まれてしまいますので、日本語由来の定義からさらに適した情報になるよう絞って異体字情報を整理し、名刺画像の文字と照合の上、適切な文字をデータ化するようにしています。
(例)「剣」の場合

おわりに
異体字のデータ化の際の工夫についてのお話は以上になります。
今後も名刺画像の高品質なデータ化に向けて尽力してまいります。
