【GOSICK】先行プロモーション映像
アニメ『GOSICK -ゴシック-』(2011)
2011年に全部見てるはずですが、全部忘れてるのでまた見てます。
おそらく当時も思ったのでしょうが、このアニメに登場する大きな図書館、すごくいいです。長期間住んでみたい。まあ図書館に住み込んでも、とてもこの量の本を読み切れるわけはないのですが、いつでもたくさんの本が読めるってことを想像すると、わくわくするんですよね。
活字欲が沸いてきたところで、今回は、/usr/share/dict/wordsの各アルファベットについて出現数を調べてみます。
まずは、sedで一文字ずつ分割して、sortとuniqで各アルファベットの出現数を算出してみます。
takk@deb9:~$ cat /usr/share/dict/words | sed 's/\(.\)/\1\n/g' | sort | uniq -c 99171 26243 ' 1288 A 1247 B 1419 C 734 D 〜省略〜 12513 y 3141 z 1 Å 10 á 7 ä 6 â 3 å 5 ç 144 é 28 è 6 ê 2 í 8 ñ 8 ó 16 ö 2 ô 12 ü 3 û takk@deb9:~$
ファイルの最後の方は、フランス語の文字が含まれてるんですね。最後の行をodで文字コードを確認してみましょう。
takk@deb9:~$ tail -1 /usr/share/dict/words | od -tx1a 0000000 c3 a9 74 75 64 65 73 0a C ) t u d e s nl 0000010 takk@deb9:~$
エチュードって聞き覚えがあります。
アクセント付きのアルファベットは1文字=1バイトではないので、これを利用すればまとめて分類することができます。
sedの代わりにfoldを使って除外してみます。
takk@deb9:~$ cat /usr/share/dict/words | fold -b1 | sort | uniq -c 522 � 26243 ' 1288 A 1247 B 1419 C 734 D 〜省略〜 12513 y 3141 z takk@deb9:~$
複数バイトの文字は、522カウントされている 先頭行に集まりました。
シングルクォートも除外したいので、純粋にアルファベットだけの出現数はtailで上から3行目以降を表示するための、-n+3オプションを指定します。
takk@deb9:~$ fold -b1 /usr/share/dict/words | sort | uniq -c | tail -n+3 1288 A 1247 B 1419 C 734 D 596 E 455 F 720 G 752 H 343 I 493 J 582 K 836 L 1560 M 518 N 359 O 920 P 65 Q 702 R 1450 S 819 T 130 U 323 V 453 W 39 X 139 Y 140 Z 63151 a 14279 b 30453 c 27797 d 88237 e 10220 f 21992 g 18568 h 66643 i 1455 j 7827 k 40271 l 20948 m 56626 n 48585 o 21354 p 1459 q 56645 r 88663 s 52187 t 25988 u 7666 v 7077 w 2085 x 12513 y 3141 z takk@deb9:~$
次回は、これを出現率の一覧に変換します。
コメント