ふと、RUBY_VERSION などの定数がどのくらい使われているのか数えてみた。
まず、そういう定数はいくつあるのだろうか。 all-ruby で調べてみる。
% all-ruby -e 'p Object.constants.collect {|x| x.to_s }.delete_if {|x| /\ARUBY_/ !~ x }.sort.join(" ")' ... ruby-1.3.4-990531 "" ruby-1.3.4-990611 "RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_VERSION" ... ruby-1.8.5 "RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_VERSION" ruby-1.8.5-p2 "RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_VERSION" ... ruby-1.8.7-preview4 "RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_VERSION" ruby-1.8.7 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_VERSION" ... ruby-1.8.7-p374 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_VERSION" ruby-1.9.0-0 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION" ... ruby-1.9.0-3 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION" ruby-1.9.0-4 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_ENGINE RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION" ... ruby-2.2.4 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_ENGINE RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION" ruby-2.3.0-preview1 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_ENGINE RUBY_ENGINE_VERSION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION" ... ruby-2.3.0 "RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_ENGINE RUBY_ENGINE_VERSION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION"
とりあえず減ったことはないようなので、Ruby 2.3.0 にあるものだけ考えればいいようだ。
gem-codesearch で検索して数えてみる。
% for w in RUBY_COPYRIGHT RUBY_DESCRIPTION RUBY_ENGINE RUBY_ENGINE_VERSION RUBY_PATCHLEVEL RUBY_PLATFORM RUBY_RELEASE_DATE RUBY_REVISION RUBY_VERSION do echo -n "$w: " gmilk -e grep -s rb -a $w|grep "\\<$w\\>"|wc -l done RUBY_COPYRIGHT: 32 RUBY_DESCRIPTION: 467 RUBY_ENGINE: 2800 RUBY_ENGINE_VERSION: 34 RUBY_PATCHLEVEL: 681 RUBY_PLATFORM: 10993 RUBY_RELEASE_DATE: 493 RUBY_REVISION: 91 RUBY_VERSION: 23099
RUBY_VERSION がいちばん多くて、次が RUBY_PLATFORM のようだ。
RUBY_ENGINE もそこそこ多いな。CRuby 以外を考慮する人もそこそこいるのだろう。
ちょっと妄想した。
「PHP の壊れた mt_rand の品質を統計的に検証した」の最後に「mt_rand が奇数しか生成しない(値域の指定によっては)」という話があって、ちょっとまわりを見回してみた。
とりあえず php はそこで示されているように、mt_rand(1, PHP_INT_MAX) が常に奇数を返す。
% php -r 'for ($i=0;$i<10000;$i++) { echo mt_rand(1, PHP_INT_MAX)."\n"; }'| ruby -e 'ARGF.each {|line| p line.to_i.odd? }'|uniq true
なお、PHP_INT_MAX は 9223372036854775807=2**63-1 である。
% php -r 'echo PHP_INT_MAX."\n";' 9223372036854775807
以下のように PHP の mt_rand(1, PHP_INT_MAX) の結果を 2進数にすると、なにが起きているのかわかりやすい。
% php -r 'for ($i=0;$i<20;$i++) { echo mt_rand(1, PHP_INT_MAX)."\n"; }'| ruby -e 'ARGF.each {|line| printf "%.64b\n", line.to_i }
乱数は 31bit であって、それを [1,2**63) の範囲に引き伸ばしているので、下位ビットはだいたい 0 になってしまい、最下位だけは下限 (第一引数) が 1 なので 1 になる、というわけである。
第一引数を 0 にすれば [0,2**63) の範囲になって以下のようになる。
% php -r 'for ($i=0;$i<20;$i++) { echo mt_rand(0, PHP_INT_MAX)."\n"; }'| ruby -e 'ARGF.each {|line| printf "%.64b\n", line.to_i }
31bit の乱数に範囲の大きさを乗じて結果を求めればこうなるという話だな。
いくつか調べてみると、perl が同じような動作である。
% perl -e 'for ($i = 0; $i < 20; $i++) { printf "%.53b\n", rand(2**52) }' 00000110001001110010011010110001101010001000000010000 01010001110110000101110001111110001100011011110000000 01101000010110111010001110111010000101010001000110000 01111011010001011111111001001010101100010111100100000 00001001011000111110101011001100010001101000101010000 00111110101100000010001100001000011101111111111000000 01101100010010110110100010010001010010110010101110000 00111001000010001001010010000000000101101000101100000 01101000011010101010000011101110011110110011010010000 01010100101101000110001110100001101000000110000000000 01000110010001001011101001100111100010001110010110000 01110111011000010001101110100101011110101011110100000 01110101110111010111110111110111000100000111111010000 01100001000001000000001010100001101011001110001000000 01101010011100111011110010000001101010000011111110000 01001111010011110110101111100111101100000000111100000 01110100010100010110100110100111011100000110100010000 01110111011101110010101010011110101111111000010000000 00100000000010001100101101011000001000110011100110000 00011110010110111001101000101110101010001000000100000
乱数は 48bit のようだ。おそらく drand48 で生成されているのだろう。
pp.c の pp_rand のところをみると、これは結局 rand(n) は n * Drand01() と計算されている。ここで Drand01() は [0,1) な乱数を返す関数で double を返す。Drand01() は drand48() / 2**48 になっているのだろう。そのため、2**52 * (drand48() / 2**48) というのは結局 2**4 * drand48() になって、整数を2**4倍しているから下位4bitは0になるのである。
こういう、一定の範囲の乱数を生成するやりかたは、剰余を使うやりかたもある。mruby はそのようである。mruby の (mruby-random の) random.c をみると、rand(max) は mt_rand(t) % mrb_fixnum(max) と計算されている。mt_rand は [0,2**32) な範囲の整数の一様乱数を返す関数である。max のほうは mrb_fixnum(max) となっていて、手元の環境では、2**31-1 までの値しか渡せないようだ。
剰余を使うと、下位ビットが0に固定されることはない。しかし、上位ビットに問題が出てくる。極端な話、乱数の最大値よりも大きな範囲を扱おうとすると、剰余は乱数そのものを返すことになるので、大きな値が返ってこない。
mruby の場合は fixnum の制約によりそういう範囲は渡せないが、それでも確率的な偏りが生じる場合がある。以下のように、rand(1717986918) を繰り返し呼んで数えると、前半 (858993458以下) は後半 (858993459以上) に比べて 1.5倍の確率になってしまう。
% bin/mruby -e 'n = 1717986918; a = [0]*4; 10000.times { r = rand(n); a[r / n * 4] += 1 }; a.each {|n| puts "*" * (n / 100) }' ***************************** ****************************** ******************* *******************
1717986918 というのは、じつは 2**32 * 0.4 である。(これは 2**31-1 以下なので指定できる。) rand(n) は内部的に [0,2**32) の範囲の乱数を n で割って余りを得るわけだが、ここではさらに n で割って 4 を掛けて、0 から 3 までの値に変換している。これは結局、[0,10) の範囲の乱数を 4 で割って余りをとるのと同じような性質になる。簡単のためにそっちで説明すると、[0,8) の範囲の乱数を 4 で割って余りをとれば一様になるだろうが、[0,10) では一様にはならないという話である。8 と 9 が返ってくる場合があるので、それらは余りが 0 と 1 になり、前半の確率を押し上げることになる。
まぁ、php, perl, mruby のいずれにせよ、かなり大きな範囲を指定しないと明瞭な症状は出てこないが、変といえば変である。
ならどうすれば直せるのか、というと、Python がわかりやすい。Python の random.py の _randbelow をみると、いろいろ場合分けがあるが、(おそらく) 簡単なケースでは以下のコードが動作する。
k = n.bit_length() # don't use (n-1) here because n can be 1 r = getrandbits(k) # 0 <= r < 2**k while r >= n: r = getrandbits(k) return r
これは、[0,n) な整数の乱数を生成するコードだが、n が k ビットとして、k ビットの乱数で n 未満なものが求まるまで繰り返す。まず、乱数を生成するときに k ビットと指定することで、十分な桁数の乱数を生成することができ、(php や perl と異なり) 下位ビットが 0 になってしまうことを防げる。そして、半端な値は捨てて再挑戦することにより、半端でない範囲の乱数を扱っていることになり (mruby とは異なり)、一様な乱数が得られる。
以下のようにすると、ちゃんと下位ビットまで乱数が生成されていることがわかる。
% python3 -c 'import random for i in range(20) : print(random.randint(0,2**100))'| ruby -e 'ARGF.each {|line| printf "%.100b\n", line.to_i }
なお、Ruby も (C で書いてあって少しわかりにくいが) Python と同様な処理をしている。(昔自分で直した話なので覚えている。)
% ruby -e '20.times { printf "%.100b\n", rand(2**100) }
また、OCaml も半端な値について似たようなことをしている。(30bit よりも大きな範囲指定はエラーになる。) OCaml の random.ml に以下のコードがある。
let rec intaux s n = let r = bits s in let v = r mod n in if r - v > 0x3FFFFFFF - n + 1 then intaux s n else v
intaux は、乱数生成器の状態 s と整数 n を受け取って、[0,n) の乱数を返す関数である。bits は [0,2**30) の範囲の乱数を返す関数である。r - v > 0x3FFFFFFF - n + 1 という条件が成り立てば、(tail recursion で) 再度挑戦している。こういう条件にしているのは、再挑戦の数を少なくできるからかな。
試したバージョンは以下のとおり。
% php -v PHP 5.6.17-0+deb8u1 (cli) (built: Jan 13 2016 09:10:12) Copyright (c) 1997-2015 The PHP Group Zend Engine v2.6.0, Copyright (c) 1998-2015 Zend Technologies with Zend OPcache v7.0.6-dev, Copyright (c) 1999-2015, by Zend Technologies % perl -v This is perl 5, version 20, subversion 2 (v5.20.2) built for x86_64-linux-gnu-thread-multi (with 45 registered patches, see perl -V for more detail) Copyright 1987-2015, Larry Wall Perl may be copied only under the terms of either the Artistic License or the GNU General Public License, which may be found in the Perl 5 source kit. Complete documentation for Perl, including FAQ lists, should be found on this system using "man perl" or "perldoc perl". If you have access to the Internet, point your browser at http://www.perl.org/, the Perl Home Page. % bin/mruby --version mruby 1.2.0 (2015-11-17) % python3 -V Python 3.4.2 % ruby -v ruby 2.4.0dev (2016-01-04 trunk 53427) [x86_64-linux] % ocaml -version The OCaml toplevel, version 4.02.3
[latest]