9.テレビ会議に関わる人間要因(ヒューマン・ファクタ)【映像2】
テレビ会議システムに関わるヒューマン・ファクタ。前回は、ヒューマン・ファクタの研究の始まりと視線の一致についてご説明いただきました。今回は映像に関することの2回目として、1人を映すサイズなどについてお伺いします。
ディスプレイに映る相手の映像について適正サイズはあるのでしょうか。
図8は、1970年代にテレビ電話についてNTTが行った「テレビ電話の好ましい画面サイズ」の実験結果です。テレビ電話を机の上に置いて、肩上像という典型的なテレビ電話の映像を映し、視距離が1メートルという条件下で調べています。
横軸は画面の高さを表しています。縦軸が評価値で、もう1つのパラメーターは走査線数です。走査線数というのは解像度に相当するもので、実験当時は 1MHzのテレビ電話といって275ラインが1つの目安でしたが、いまは一般のテレビやDVDの走査線数である525ラインが着目すべき値でしょう。
図8の走査線数525ラインを見ると、ある地点で山を描いています。あまり小さすぎても駄目だし、反対に大きすぎても駄目で、ちょうどいいのが15センチぐらいのところですよ、というデータ結果になっていますね。
図9は、「テレビ会議の画面サイズ」についての評価です。テレビ会議で使うシチュエーションと同じように、4人から6人の人たちを映しています。
横軸が画面のサイズで、1人が映るサイズのことを指しています。1の場合がほぼ等身大で、頭の高さが30センチ前後くらいです。0.1の場合なら1人の人が3センチの高さに映っているということになります。縦軸が評価値です。
面白いのは評価が右肩上がりで、等身大まではより良いという結果になっているんですね。先ほどのテレビ電話では、30センチは嫌だと評価されています。しかし、テレビ会議では大きい方がよくて、等身大の方が自然に感じるようです。
これは同じ時期に行った実験ではないので、必ずしも学問的にちゃんと検証できるかというと疑問ではありますが、分からないではないと思う結果です。
以前にもお話しましたが、テレビ会議は皆さんに受け入れられているにも関わらず、テレビ電話は受け入れられていないというミステリーなところがあります。 FOMAの場合も、テレビ電話機能が付いているにもかかわらず、あまり使われていないようです。
余談ですが、電話は音声だけでよくて、電話の延長であるテレビ電話というのは求められていないのではないかと最近思っています。
ヒューマン・ファクタ的には、どのくらいの画質で映ればいいのでしょうか。
目の大小が識別できるかというのは、システムを設計する人にとってはクリティカルな課題です。符号化を行うにあたって、ある試験画像に登場する人の目が開いているかどうかというのが目安になっていたことがあります。
図10は「識別限界となる顔の高さ当たりの画素数」を表していますが、この資料では目が開いていると識別できる数値はだいたい60画素くらいです。識別限界なので、実用的な数値よりも幾分甘めになっています。
私の経験からいうと、走査線数で1人に100ラインくらいが適正数値になります。それより小さくなるとちょっと見にくいですね。
ライン数と画素数は必ずしも1対1では対応しないところがあるんですが、ケルファクタ(Kell factor:実質的な垂直解像力と画面に表れる有効走査線数との比)という古くから知られている比率0.7から算出すると70画素で、だいたい図10に 近い数値になります。そこから考えても、1人頭100ラインくらいが実用的な目安だということですね。
テレビ会議ではだいたい5、6人が一度に映るので、1人あたりは画面の高さの約1/5を占めている感 じです。CIF(Common Intermediate Format:NTSC、PALのいずれのテレビ方式の地域でも相互通信が可能なように、ITU-Tが勧告した共通中間フォーマット。テレビ会議の解像度 の基準の1つ)の解像度は352画素×288ラインですので、288の1/5だと画素数は57.6でちょっと足りません。もちろん表示する大きさにもよります。
走査線数で1人に100ライン、画素数だと70画素が必要なレベルということですか。
人であるか物であるか判断できるというレベルから、その人かどうかが特定できるというレベルや、表情が分かるというレベル まであるんですが、これには多分に知り合いかどうかということも関係してくるんです。知っている人だと、頭をかく仕草1つで「ああ、あの人だ」と分かるん ですね。
そういう点は考慮しないで取ったデータなので、「よく使っている人の間では、システムがそんなによくない場合でも役に立ちます」というのが、一般的に言えることだと思います。
初対面の人の印象を決めるのは、テレビ会議では難しいのです。人間も動物ですから、生き長らえるための能力として、いろんな情報を総動員して相手が敵か味 方かかを見分けていますよね。テレビに映った映像は帯域が限られているし、たとえば臭いなどは伝わりません。そういう点からも、初対面の人の印象を得よう とするのは無理ではないかと思います。
図11は、人か物かあるいは誰かを認識するのに、どれくらいの解像度が必要かというものです。先ほど 100ラインといいましたけど、64画素×64画素が1つの目安でこれより下がると判断できないという結果になっています。8画素×8画素の場合は、人か 物かも判断できません。
NTT博物館に面白いパネルがあったのですが、パネルの一方にゴリラ、もう一方にアインシュタインを表示させて、8×8、16×16、32×32……と、ずっと並べていって、どこから区別できるかというのをやっていました。
図11を見ても分かる通り、最低でも32×32は必要なんですね。128×128になればもっと綺麗で自然に見えます。100ラインというのは、128×128と64×64の間くらいになります。
このあたりは定量的にいわれなくても、だいたい経験から得ているんだと思います。
どのくらいのサイズで映ればいいのでしょうか。
テレビ会議は1つのディスプレイがリソースなわけで、このリソースをいかに活用するかがポイントです。図12は、私たちが行った「画像会議における出席者表示方法の評価」です。
(i)は、4人並んでいるところを普通に撮って映したものです。
(ii)は、4人並んでいるところを切り取って、クローズアップしたものです。背景など、周囲の余分な情報は不要として切り落としています。
(iii)は、スプリットスクリーンという技術です。2台のカメラを使って、2人ずつ撮影し、上下2段に分けてディスプレイに表示します。これだと1人が少し大きく映ります。
(iv)は、1人に1台のカメラを使って、めいっぱい大きく映します。1人ひとり大きさをコントロールできるのが長所です。
(i)から(iv)になるに従って、段々大きく映せるようになるかわりに、周囲の状況が見えなくなっています。それではどのあたりが適当なのかという実験です。
適当なサイズとしては、人の頭の高さがディスプレイサイズの1/5くらいに映るのがちょうどいいという結果です。一般のテレビの走査線数480ライン×1/5=96ラインとなり、100ラインくらいという数値はここからきています。
ところで、最近は図13のようなスプリットスクリーンのシステムを見かけませんが、私がNTTにいる頃には盛んに使われていて、いいシステムだなと思っていました。
スプリットスクリーンは2台のカメラを使って会議の出席者を映し、その映像を上下に組み立てて送信します。受けた方は2台のディスプレイに分けて表示しま す。6人が横に並んで表示される仕組みです。会議では人を縦に並べて表示するわけにはいきません。横に並べるために、上下に映っている壁や机は取り除い て、人が映っている部分をフル活用しようというものです。
このアイデアは、Seylerさんというオーストラリアの方が発案しました。図13が掲載された「Telecommunication Journal of Australia」は1973年の出版ですから、70年代のはじめにこのような実験をされたんだと思いますが、非常に先進的な実験だと思います。恐らく 最初は直感的にやられたんでしょうけど、あとから調べてみると非常にヒューマン・ファクタ的にマッチしたシステムになっていたというわけですね。
これはITUの勧告にもなっているんですが、非常に有効なシステムだと思います。最近は使われてはいないようですが、復活してもいいんじゃないかと思っています。
テレビ会議システムからの視距離は関係するのでしょうか。
「テレビ電話の好ましい画面サイズ」の実験で、テレビ電話からの視距離が1メートルという条件だったとお話しましたが、テレビ会議の場合はもっと距離を取っていますね。通常3メートルくらいでしょうか。
1人が映るサイズには、この絶対距離もある程度関係しているようです。近すぎるとプレッシャーに感じるんだと思います。
ちょっと強引かもしれませんが、それを裏付けるようなデータが図14です。
法政大学の原田悦子先生が行った実験で、立っている人に向かってほかの人が携帯電話で話しながら近づいてくる、あるいは ゲームをしながら近づいてくるというというシチュエーションです。1の方向は立っている人の前方、5の方向は後方です。後ろからくる場合は、音で距離を感 じているということだと思います。
前方から接近された場合、嫌だと思うのは2メートルのようです。携帯電話で話しながらでも、手ぶらであっても、2メートルが限界なんですね。それがパーソナルな距離ということなんだと思います。
ゲームをしながらだともう少し緩和されるようです。これは人ではなく、物体が近づいてくるのにより近いということではないかと思います。近づいてくる人と自分がインターラクトすることが関係するのではないかという気がします。
もしくは、ゲームをしている場合はただの通行人だという感じがあるのかもしません。それでも1.5メートルですからね。そこらへんがパーソナル距離の限界なのかもしれません。
なお、原田先生の実験の主な狙いは、図14で紹介したのとは逆に、実験参加者が携帯電話をしたりゲームをしている人に近づくとき、携帯電話やゲーム機が接 近距離にどのような影響を及ぼすかを調べることにあります。携帯電話をしている人に近づく場合、手ぶらの場合に比べ距離を取ろうとする、という興味深い結 果になっています。
テレビ電話があまり受け入れられないのは、自分のパーソナル距離の中に相手が勝手に入り込んでくる印象があるんじゃないかと思います。そのため、表示されるサイズがあまり大きいと拒否反応が出るのではないでしょうか。
図15は、プロクセミックス(proxemics)という古くからある対人間の距離の学問からのデー タです。このE.T.ホールさんという人の分け方は、「密接距離」「個体距離」「社会距離」「公衆距離」となっていて、4つをさらに「近接相」「遠方相」 の2つに分けています。
テレビ電話は、このデータの個体距離、あるいは社会距離が関係していると思います。見ず知らずの人、もしくは家族やそれ以外の人だったら120から360 センチが社会距離であって、近づいても許せる距離なんでしょうね。これ以上近づいてくると、領空侵犯のような感じを受けるということでしょうか。ディスプ レイの中であっても、相手の顔があまり大きくなると距離が近すぎる気がするんだと思います。
人間も無意識に動物的な反応をするところがあって、それがこの個体距離とか社会距離なんだと思います。社会心理学的にもこのようなことが言われています。
テレビ会議の場合には、ディスプレイが大きいとか、たくさんの人が参加するということで、必然的に距離が取れるというところが幸いしているんじゃないかなと思っています。
以上が映像系の話です。
※本文中に掲載された図表は、大久保先生の講義資料を元に作成したものです。
――次回は引き続き、「テレビ会議に関わる人間要因(ヒューマン・ファクタ)【音声】」を掲載します。