■スパムのベイジアン推定と出荷検品抜き取り検査の関連

A Plan for Spamはスパムに対するベイズ推定の説明としてかなり面白いです。


上記、面白かったのでベイズ推定についてちょっと復習しようとして失敗しました。頭が悪いなぁ。以下顛末です。問題を考えて解いて行きます。


準備ステップ1
ともに中身がみえない袋A、袋Bを用意する。
囲碁の黒石を2個、白石を1個用意する。
準備ステップ2
合計3個を袋Aの中にいれてよくかきまわす。
あなたは目をつぶって袋Aから石を1個取り出し袋Bに入れる。
これで袋Aには石が2個、袋Bには石が1個入っていることになる。
それぞれの袋の各石が黒いか白いかは断定できず、確率の問題である。
問題【あ】
石が一個はいっている袋Bから石を取り出したときにその石が黒である確率を求めよ。
解答【あ】
2/3。
最初に用意した3個の石から無作為に1個取り出したときにその石の色が黒である確率を求めたに過ぎない。

準備ステップ3
等しく目が出るサイコロを用意する。
ともに中身がみえない袋A、袋Bを用意する。
充分な個数の碁石を用意する。
準備ステップ4
サイコロを1回振り、1から4までの数が出たら黒石を1個、それ以外では白石を1個、袋Aにいれる。
準備ステップ5
準備ステップ4と同じ操作を繰り返す。
準備ステップ6
2個の石がはいっている袋Aから1個だけ石を取り出す。
たまたま、その石は黒であった。(条件付確率の条件が発生)
問題【い】
袋Aに残された石の色が黒である確率を求めよ。

さて。解答【い】を求める前にいろいろと雑記したいと思います。上の問題は私が高校生だったときの受験参考書に出ていた問題を記憶を頼りに復元したものです。問題の意図としては条件付き確率を理解しているかどうかを確認することでした。最近スパムメイルのフィルターとして脚光を浴びているベイズ推定の雛型としての説明がその参考書に付されていました。参考書の解答ではベイズの公式を天下り的にズバッと当てはめているだけだったのです。それだけでは申し訳無いと思ったのかその参考書の説明では、この問題は工場における抜き取り検査による出荷検品の原理を説明しているとも書いてありました。上の問題では黒石が製造工程で出来あがる良品、白石が不良品であると考えるのです。3個の製品を作るときに確率として1個不良品が出てくるとします。良品が推定2個!(実際にはそんな工場はつぶれますけど、原理の説明なので気にしません。)製品から出荷にあたって一箱あたり2個の詰め合わせをします。で検品担当者は一箱の中から1個を抜き取ってそれが良品(黒い石)であることを確認することが出来れば箱にはいっている残りの石の色はベイズ推定によって良品である(つまり黒である)確率が単純な製造工程上の確率2/3どころではなく、もっと増えている、という按配です。増える要因としては「一個抜き取ってあり既にその石が黒、すなわち良品であった」という条件の元での条件付確率計算によるものです。抜き取り検査の有効性を判らせようとする問題でした。100個作った時に1個調べれば残りの99個の安全性は増すという意味です。この抜き取り出荷検品は実際に現場で行われているものと聞いています。

さて、ここまで説明をしてきましたが、実は今の私には上の問題【い】が解けないのです。出題の意図を示す解答が導出できないのですね。むろんベイズの定理なんてWEBを探せば出てきますし条件付確率の概念も私にはわかっているハズなのですが解けません。なんとも情けない事です。そこで問題を良く似てはいるものの違うものに変形してみます。


準備ステップ7:
ともに中身がみえない袋A、袋Bを用意する。
囲碁の黒石を2個、白石を1個用意する。
準備ステップ8:
合計3個を袋Aの中にいれてよくかきまわす。
あなたは目をつぶって袋Aから石を1個取り出し袋Bに入れる。
これで袋Aには石が2個、袋Bには石が1個入っていることになる。
それぞれの袋の各石が黒いか白いかは断定できず、確率の問題である。
準備ステップ9:
2個の石がはいっている袋Aから1個だけ石を取り出す。
たまたま、その石は黒であった。(条件付確率の条件が発生)
問題【う】:
袋Aに残された石の色が黒である確率を求めよ。

この問題【う】なら解けるかもしれません。問題【い】では石の色が極めて不明瞭で白石の個数が確定していないのに比べこの問題【う】では3個の石のうち白石は必ず1個あり2個以上ではありません。この差は大きくて私の頭の中身は極めて具体的なモデルを描きやすくなります。あまり考えずにベイズの推定を行うと(公式にあてはめると)残された石の色が黒である確率は1/2です。詳しく論拠を追いかけたいのなら、以下のページが良いかも知れません。

婆茶留高校数学科HP
配合の確率とベイズの定理
http://www.tvnet.ne.jp/~muraken5/math/m002.html

ところで、問題【う】において残された石の色が黒である確率が1/2であるということは実はベイズの定理を使わなくとも自明なような気がします。袋Aから1個石を取り出してその石が黒であった瞬間、袋Aに残された石の色が黒である確率と、袋Bに残された石の色が白である確率は同じではないでしょうか?どうもこのへんが気持ち悪いといえば気持ち悪いのですが。私の直観はしばしば数学的には間違った答えを出しますので断言できません。でもまぁ仮にこの仮説をあえて断言するならば、話は単純です。最初に袋Aから石をとります。石が黒でした。残りの石は黒と白が1個ずつです。そしておのおの袋Aと袋Bにはいっています。袋Aの中の石の色が黒である確率はどれほどですか?1/2です。ね、自明でしょう?そしてこの結果はベイズの定理を使った計算結果と一致しています。

さて、問題【う】において、最初に取り上げる石を1番石、袋Aに残された石を2番石、袋Bの石を3番石と名前をつけます。まだ石をとりあげる前、すなわち準備ステップ8が終了した段階で、袋Aの2番石の色が黒である確率はどれほどでしょうか?2/3です。0.666666ぐらい?(笑)。で1番石を取り出してそれが黒だとわかった瞬間に2番石の石の色が黒である確率は1/2まで【下がります】。なんということでしょう。検品したら残りが良品である確率が下がってしまいました。なんということでしょう。おお!神よ。私が高校で習ってきた確率の認識なんてこんなものなのです。抜き取り検品の有効性はこの、問題【う】では判明しません。(少なくとも私には)

で、ひるがえって、問題【い】ならば抜き取り検品の有効性は正しく論じることが可能なのでしょうか。まぁその。教えて偉い人!とは言いません。このネタは狂牛病の全頭検査を行わないアメリカ行政に対する痛切な皮肉となっています。(大嘘)ただ、ベイズ推定はWEB技術上で見出された新発見でもなんでもなくて大昔から使われていたのですよ、と言いたかっただけなのですが、私の無能によりものの見事に粉砕されたのでした。

■上の問題を考え直してみる。

正確に記述できる気がしませんが上記の問題を考え直してみました。夢の中に出てきたのでもう一回。

まず、問題【い】にとりかかります。袋Aから最初の1個を取り出す行為は袋Aの2個目の石の色に影響を与えません。互いに独立な事象です。なんとなれば、おのおのの石はサイコロによってランダムに決定されているからです。ということでいいのかな?互いに独立な事象であるならばそもそも条件付確率の問題ではなくなってしまいます。問題【う】では袋Aから取り出した最初の石の色は2個めの石の色に決定的に影響を与えています。仮に最初は白だったりすると、その他にはもう白石は1個もありませんので次回以後全ての石の色は黒くなってしまいます。これならば条件付確率で捉えることが有効でしょう。

むぅ、それならば問題【い】は抜き取り検査の有効性をなんら語っていないことになります。しかしこの問題【い】は抜き取り検査の原理ををよくシュミレートしていると思うのですが。抜き取り検査は無効なのでしょうか。そんなわけないと信じたいのですがよくわかりません。

さて夢の中で出てきた問題【え】。(笑)最初に4個の石を用意し内、白石は1個と固定。袋を2枚用意し、おのおのの袋にランダムに2個ずつ先の石をいれることとする。結果、ひとつの袋には白石黒石、もうひとつには黒石黒石、となる。ランダムに袋を1個選んでさらにその袋から1個石を取り出したらその色は黒であった。同じ袋の残りの石の色が黒である確率はどれほどか。

これ、立派に条件付確率の問題ですのでベイズ推定とも関わりがあるはずです。直観的にはとても不思議なことなのですが、一個めの石を取り出すだけで石の色を見なかったときと、一個目の石を取り出して石の色を見てしまったときとで2個目の石の色が黒である確率が変わってくるはずなのです。そうじゃなきゃ条件付確率なんて無意味です。4個のうち黒石が3個あるから確率は3/4とは言えないはずなんですよねぇ。

解をするする出せるような私ではないので解答表示はパスします。チャート式数学でも立ち読みしてきましょう。もしくは以下のページを読んで頭をクラクラさせる。(may)

婆茶留高校数学科HP
条件つき確率と面積図式
http://www.tvnet.ne.jp/~muraken5/math/m001.html

■明木さんによる解法【い】

コメントをくださった明木さんによりひとつの解答がアップされています。メモメモメモ。

明木さんによる解答【い】
http://d.hatena.ne.jp/akiragi/20040308#p1