「Zipf の法則」 (2008.11記、2009.7改)

ジップの法則(Zipf's law)とは、サイズがk 番目に大きい要素が全体に占める割合が1/k に比例するという、理論的説明はない経験則。 例えば、文章中での英単語を最もよく使われる順番に並べるとk番目の単語の生起確率は1/kに比例する。(ただし、高頻度の単語には当てはまるが、単語の頻度が低くなってくると、同順位の語が多くなるためにうまく当てはまらなくなる。)企業を収益の順番に並べると同じ現象が見られる(Paretoの法則)。ジップの法則での冪乗分布(ジップ分布)は変数変換によりパレート分布(連続分布)と同じ形になる。こうした分布のlog-logプロットをとると標本点がきれいに直線上に並ぶ。その他、「都市の人口 」「上位3%の人々の収入」 「音楽における音符の使用頻度」 「細胞内での遺伝子の発現量」 「地震の規模」「固体が割れたときの破片の大きさ」 (そういえば、ファインマンはスパゲチィを割ってどのサイズものができやすいか実験をしていた。)でも当てはまる。

さて、日本人の苗字のランク―サイズ関係(順位―頻度関係)もジップの法則が近似的に成立することが示唆されている。詳しいことは、山田の論文の引用文献や文献[千田・間瀬]を参照されたい。ここでは、より細かな日本人の苗字の統計性をみてみよう。 切っ掛けは、論文をみたStarr氏から、日本人苗字に使われる方位性に関しての質問メールをもらったことによる。彼は、University of the West Indiesの生物学者で、compass-pointの視点から英語の姓名に関する論文も書いている。以下に、いくつかの日本語の文献から拾った、データを羅列する。

「参考文献」
●マンフレッド・シュレーダー「フラクタル・カオス・パワー則―はてなし世界からの覚え書」
(森北出版 1996)
●レモ・バディイ「複雑さの数理」(産業図書 2001)
●「Metabolome.JP」のZipfの法則に関する記事で、関連事項が記されているので
引用しておく。
http://www.metabolome.jp/aboutUs/aritalab/members/arita/bioventure/julyAug2004.txt
「.....Paretoの法則は1896 年に発表されているが、これを世界的に有名にしたのは
Zipfの著作(1949)および1950年代のSimon とMandelbrot の論争である [3]。
Mandelbrotは、言語が生まれるときに各単語の情報量を最適化する選択圧がか
かってパワー則が成り立つと主張したが、Simon はそのような自然界の原則が
なくても、細胞増殖に似た乗算過程でZipf の法則が成り立つことを示した。
また同時期にMillerは、サルがタイプライターをランダムに叩いているだけで
も(単語を分けるためスペースバーだけは他のキーより打つ確率を高くする)、
Zipf則が成り立つことを示している [4]。

結局のところ、遺伝子やタンパク質のネットワークが満たすパワー則もランダ
ム過程から生じているにすぎない [5]。

[3] G.Zipf, Human Behavior and the Principle of Least Effort
Addison-Wesley, Cambridge MA, (1949). 詳細はZipfの法則のウェブページ
httplinkage.rockefeller.eduwlizipf
[4] GA.Miller, American Journal of Psychology 70, 311-314 (1957).
http://www.uvm.edu/~pdodds/research/papers/others/1957/miller1957a.pdf
[5] WJ.Reed, Physical Review E 66067103 (2002).
httpwww.math.uvic.cafacultyreed より取得可能。」

●H.S. Yamada and K. Iguchi, "q-exponential Fitting for Distributions of Family Names",
Physica A 387, 1628-1636 (2007)
●千田敏,間瀬茂, 日本人の名字の統計解析, 日本統計学会誌35巻1号,55-90,2005
●石井 好, 代地名伝播に関する数値実験: 東遷説の正当性,
東京都立航空工業高等専門学校平成11年紀要 1999
●Christopher K. Starr, "COMPASS POINTS IN ENGLISH SURNAMES", Names 55,343-348 (2007)
●I.V. Gillis and P. Pai's, "Japanese Surnames" 1939

●坂田聡「苗字と名前の歴史」 吉川弘文館 2006
●丸山浩一「姓氏苗字事典」 金園社 1996
●松島茂光「苗字の話」 近代文芸社 1995
●中沢忠雄「日本の苗字とその流れ」1994
●丹羽基二「日本の苗字読み解き事典」柏書房 1994
●渡辺三男「日本の苗字」 毎日新聞社 1976
●豊田武「苗字の歴史」 中央公論社 1971
●奥富敬之「名字の歴史学」 角川書店 2004
●森岡浩「全国名字辞典」 東京堂出版 1997
●平島裕正「日本の姓名」 六月社 1964
●荒木良造「姓名の研究」 麻田文明堂 1929
●武光 誠「知っておきたい日本の名字と家紋」 角川学芸出版 2007
●武光 誠「名字と日本人」 文芸春秋 1998
●森岡 浩「名字の地図」 日本実業出版社 2004
●森岡 浩「名字の謎がわかる本」幻冬舎 2003
●森岡 浩「名字の謎」新潮社 2002

======================================
●姓の由来は次のように分類できる
 地名姓...地名に使う漢字などとの同等性
 地形姓...地形や土地の様子から、山、川、田など
 方位姓...東西南北仲本、前後奥、上中下、左右など
 職業姓...鍛冶、荘司、大工など

●田中と中田
 田中...130万 住居と結びつく 大字では123、村居に対して田居が生まれ、そこから田舎、田中が生じた。
 中田...8万 田の位置からくる呼称 大字では44、新田が増えた結果、上田、下田、山田、などの区別がうまれる。

●苗字に使う漢字の統計
 順位1−20、田、藤、山、野、川、木、井、村、本、中、小、、、、
一方、地名に使う漢字の
 順位1−20、川、田、大、山、野、鳥、東、津、上、原、、、
かなり類似。

●姓の文字分析
 約100,000の苗字が3000-4000字の組み合わせでできている。
 名字1000位までに使われる字、田、川、井、野、山、、、、、、西、口、石、などの順。
 頭字...多い順に、大、小、中、高、三、上、井、西、、、
 結字...多い順に田、野、谷、山、川、井

●1文字姓、3%
 2文字姓、85%
 3文字姓、10%
 4文字姓、<1%

●フり仮名3個 474(45%)
 フり仮名4個 467(45%)
フり仮名2個 89(8%)
フり仮名5個 19(2%)
================================
●方位姓について。東西南北で始まる姓名、数字は順位。
「西、北が多いもの」
西村42   北村115  東村3154  南村5106
西川113  北川210  東川2069  南川1999
西田112  北田729  東田1346  南田3498
西原458  北原429  東原2208  南原4216
西沢368  北沢580  東沢×   南沢2513
西島600  北島434  東島2861  南島6328
西尾286  北尾1648  東尾5368  南尾×

西山171  北山604  東山1115  南山3300
西岡308  北岡1025  東岡5831  南岡13678
西野321  北野385  東野1055  南野1968

「そしてこのパターンでないもの」
西242  北839  東124  南200
つまり単独の場合は、東、南、西、北の順なる。

「他のパターンとして」
西里4804  北里4106  東里×   南里2545
西条1258  北条911   東条1128  南条1786
西海2685  北海17756  東海1264  南海×
西谷660   北谷2200  東谷1744  南谷2178
================================
●たとえば、「東」で始まる姓の順位ーサイズ
rank kanji # of hoseholds
123 東 37937
1003 東海林 4485
1060 東野 4206
1107 東山 4033
1343 東田 3141
1657 東条 2383
1761 東谷 2218
1800 東郷 2155
2107 東川 1765
2133 東海 1733
2244 東原 1627
2332 東條 1546
2382 東出 1501
3072 東本 1066
3098 東口 1057
3177 東村 1023
3266 東島 986
3378 東浦 942
3547 東城 881
3713 東江 827
5464 東方 466
5491 東尾 462
5985 東岡 403
6299 東根 376
6368 東井 370
6427 東森 366
6501 東恩納 360
6702 東元 345
6812 東藤 337
6867 東内 332
7037 東畑 322
7127 東中 315
7553 東間 289
8372 東園 244
8824 東平 225
9044 東峰 216
9109 東松 214
9360 東久保 204
9435 東崎 202
9661 東福 195
9843 東正 189

戻る