AI都市伝説 ディープラーニング「"目" だ "耳" だ "人間"だ」理論
AIブームですね
ディープラーニングの記事で特徴抽出をこんな風に説明している記事を最近よく見かけます。
質問 : ディープラーニングはどうやって画像が人間の顔だと判断するのですか? 答え : ディープラーニングは画像からまず"耳"、"目"、など顔の部品の特徴を自動的に抽出して把握し、それらの特徴を組み合わせて「人間の顔」と判断します
一見もっともらしく聞こえますね
では、これは?
質問 : テレビははどうやって人間の顔を画面に映すのですか? 答え : テレビはまず"耳"、"目"、など顔の部品を画面に映します、それらの画像を組み合わせて「人間の顔」を映します。
こちらはほとんどの人が質問に答えてくれてないと感じますね
二つとも論理展開に無理がある
テレビの場合
質問している人が知りたいのは「三次元の物体が二次元のテレビ画面に映る仕組み」 回答する人は「耳が映って、目が映って、人間の顔が映るんだよ」という的外れな答えなので画像化の仕組みが全くわかりません。 こんな回答されたら「じゃあどうやって耳を写すんですか?」と追加質問したくなりますよね。
ディープラーニングの場合
質問している人が知りたいのは「ディープラーニングが画像を認識する仕組み」 回答する人は「耳を認識して、目を認識して、人間の顔と認識するんだと」という的外れな答えなので認識の仕組みが全くわかりません。 でも、この回答で「ああ、そういうもんなのかなぁ。。」と納得してしまう人も多いのではないでしょうか。 そこで納得せずに「じゃあディープラーニングはどうやって耳を認識するんですか?」と追加質問しましょう。
ディープラーニングなど機械学習で言われている特徴って人間が直感的に把握する特徴(耳、目、とか)とは全く違います。その話はまた今度。