iPadとブックスタンドの相性は抜群

早速iPadを入手し色々使い始めているのだが、iPadとブックスタンドのコンビ利用がとても使いやすい事に気付いたのでレポートしたい。


【告知】[twitter:@LunarModule7]でつぶやいています。
興味のあるかたはフォローください。

EDISON ほんとスタンドS(ほんたった黒セット)筆者はエジソンほんとスタンドを利用して、本を参照しながらPCを操作する事が多い。ほんとスタンドは使い勝手の良い携帯用書見台ほんたったに、机に固定するためのスタンドがセットされた商品である。ほんたったは、様々な大きさの本をしっかりと固定でき、ページめくりも簡略化できるように工夫されている。公式ページのお客様の声よりを見ると、本好きのユーザの感謝の声が並んでいる事が分かるだろう。PCの横に常設しておいて損はないアイテムだ。

次の写真はほんとスタンドにて、『About Face 3 インタラクションデザインの極意』を閲覧している様子を示したものだ。About Face 3は全てのアプリ、Webサービス開発者が読むべき神本だと思うが*1、総ページ数は576ページ、重量は1.3kgにも及ぶ。そんな本でも、必要なページをしっかりと開きながら、PCで作業をする事が簡単にでき、ほんとスタンドの優秀性を示していると言える。キーボードの横に本を開き、それを手で押さえながら、PCを操作する時の煩わしさから開放されるのは大きい。





しかし、そうは言っても、ほんとスタンドに本を設置するのは一苦労だし(重量級の本ならなおさら)、ページをめくって所望の情報を探したいという時には一度スタンドから外さねばならず*2、面倒であることは確かだ。

そこで、iPadの出番である。About Face 3を解体、ドキュメントスキャナで電子化、i文庫HDで表示としてみると、こんな風に一気にスマートになった。






i文庫HDで300dpiで取得したスキャン画像(JPG/ZIPフォルダ圧縮264MB)を表示させたところ。
本来もっと小さい解像度で十分だが、この大きさでもストレス無く表示できる。

ここではiPadを縦にして利用しているが、もちろん横向きに挿入して、見開きページを表示させる事も可能だ。iPadとほんとスタンドの併用の利点を挙げると次のようになる。

  • 本をほんとスタンドに設置する煩わしさが無く、iPadを挿入するだけiPadの大きさは元の本に比べて小さく縮小される事になるが、距離が近いので細かい文字も問題なく読める。
  • 重いiPad(それでも元の本の半分だ)を、手で支える必要がなくなる。つい落として液晶を割ると言ったトラブルも防ぐ事ができるだろう。
  • iPadをほんとスタンドから外すこと無しにページめくりがタップで行え、必要なページにすぐアクセスできる、。別の本に切り替える事も簡単だ。できればPCのキーボードで検索語を入力、出力結果がiPadに表示されるといった連携ができれば良いのだが。
  • 操作はしっかりと固定されたiPadを片手でタッチするだけで行えるため、PC操作が長時間割り込まれる事が少なく、作業効率が上がる。
  • ほんとスタンドのクリップは透明なので、クリップの下の文字も問題なく読める。クリップはプラスチック製であり、iPadに傷を付けるという事も無いだろう。クリップの高さは調整可能であり、アプリケーションの操作の邪魔にならないところに設定すると良い。

さらにiPhoneからPCの操作が可能なアプリケーションであるAir Mouse Proもしくは同じくiPad版のMobile Mouseを用いれば、iPadを操作パネルとして利用する事ができる。次の写真はAir Mouse Proでランチャを表示している場面であり、アイコンタップでPCのアプリケーションが立ち上がる。画面の上半分はタッチパッドとして機能し、PCのカーソルを操作できる(マウスがすぐ横にあるので使う意味がないが)。これらのアプリでは、マウス操作、キーボード操作(QWERTY、テンキー、ファンクションキー)が可能であり、iPadの操作パネルとしての利用の可能性を感じさせる。



一般的なiPadスタンドと異なり、アームにより顔の近くの視線の高さに固定可能なほんとスタンドは、iPadというデバイスと非常に相性がよい。ELECOM EDH-004 ブックスタンドのような据え置き型のスタンドと異なり机の面積を占有しないのも利点の1つだ(ほんとスタンドはアームから取り外せばほんたったになるので、机の上に置いて利用したりコンパクトに折りたたんで持ち運ぶ事もできる)。もちろん、リアルな本を入れて使う事もできるので、机に常設しておけば何かと役に立つ。ベッドなどにも固定可能な新ほんとスタンドWセットも用意されているので、寝ながらiPad読書をやりたい人は検討してみてはいかがだろうか。リアルな本を読む時も、iPad電子書籍を読む時も、どちらの場合でも十分に役に立つ、ほんとスタンド、ほんとオススメである。

追記

デュアルディスプレイにすればいいのでは?というコメントを複数頂いているが、少なくとも次の点においてデュアルディスプレイにはない利点があると考えている。

  • 本を読むのに最適化されたタッチパネルのUI
  • そのままiPad単体で本データを持ち運べる可搬性

デュアルディスプレイでは、本をめくるのにカーソル移動などの操作が必要となるが、iPadではタッチという直観的な操作で行える。また、デュアルディスプレイは取り外して単体で利用する事はできないが、iPadは取り外して持ち運び、本の続きを読む事もできる。電子書籍iPad向けに潤沢に提供されるようになれば、iPadとブッスタンドの組合せの利便性はさらに増す事になるだろう。ついでに言えば、専用のiPadスタンドと異なり、リアル本をスタンドに挿入して利用する事も当然できる訳だ。今後ともより便利な使い方を探っていきたい。

*1:About Face 3はVisual Basicの父とも呼ばれるアラン・クーパーによるUI設計・インタラクションデザインの基本を徹底的に解説した本であり、良いユーザエクスペリエンス(おもてなし)を実現するために必要な考え方・原則が良くまとまっている。アプリケーション、Webサービスの開発者には是非一読してもらって、自身の提供するアプリ/サービスのユーザエクスペリエンスを改善してもらいたい。

*2:ほんとスタンドにはダブルバインダーと言って、小さな留め具が2重に付いており、数ページならば小さい方の留め具を利用する事で、いちいちスタンドから外さなくてもページめくりができる工夫がされている。

Appleの強力な特許群はAndroid端末/電子書籍端末の脅威になるかも知れない

Appleは2010年3月2日、台湾のHTCを特許侵害で提訴したと発表した(Apple Sues HTC for Patent Infringement)。HTCはAndroid端末の最大の供給元でありNexus Oneの開発でも知られている。HTCとしては、まったく事前通告のない突然の提訴だったようだ。

Appleは20件の特許侵害を主張しているが、内10件の特許番号が訴状で明らかにされている。請求項を確認してみたところ、その基本的で広い権利範囲に驚愕してしまった。通常、特許と言っても、概要は広くても実際に請求項を見てみれば、様々な制限がかかっていて全然怖くない事が多いのだが、挙げられた特許はどれも請求項が比較的シンプルか、ごく当たり前の構成が羅列されているだけであり、極めて強力であると考えられる。事はHTCのAndroid端末だけに限らず、SonyEricssonやSamsung等他のAndroid端末メーカーにも影響する話だ。また、各社の参入が噂される電子ブック端末においても脅威となるだろう。

以下に代表的な特許の請求項1およびその参考訳を紹介する。請求項しか読んでおらず解釈には誤りが含まれる可能性がある。もし誤りに気付いた人がいればご指摘いただきたい。また、仮に先行技術の存在を示す事ができれば、特許を無効にする事も可能である。Appleの出願以前に同様の技術が利用されていた事に気付いた人は何らかの形で発表してもらいたい。


【告知】@LunarModule7でつぶやいています。
興味のあるかたはフォローください。

United States Patent: 7362331 Time-based, non-constant translation of user interface objects between states

1. A method for moving an object in a graphical user interface, comprising the steps of: a) determining a path of movement for the object along at least one axis, and a period of time for the movement along said path; b) establishing a non-constant velocity function along said axis for said period of time; c) calculating an instantaneous position for the object along said path in accordance with said function and the relationship of a current time value to said period of time; d) displaying said object at said calculated position; and e) iteratively repeating steps (c) and (d) during said period of time.

【請求項1】GUIにおけるオブジェクト移動方法であって、次のステップから構成される方法。

  • a) 少なくとも1軸に沿ったオブジェクトの移動パスと、前記パスに従って移動する時間を決定するステップ、
  • b) 前記パスに沿って、前記移動時間、速度を変化させる速度関数を確立するステップ、
  • c) 前記速度関数と現在時刻と移動時間との関係に従って移動パス上のオブジェクトの瞬間的な位置を計算するステップ、
  • d) 前記計算された位置にオブジェクトを表示するステップ
  • e) 前記移動時間中、ステップcからdを繰り返すステップ

オブジェクトを「一定速度ではなく」速度を変化させながら移動させようとすると、何もかもこの特許の権利範囲に抵触する可能性が高いiPhoneなどで、オブジェクトをドラッグして動かす時に、加速度がついて速さが変化したり、ぴったり止まらず少し震えるような効果があるが、そのような効果を実現すると本特許に抵触してしまう。速度関数を作らずに同様の効果が得られれば良いのかも知れない。

なお、1999年12月3日にW3C Working Draft: Scalable Vector Graphics (SVG) 1.0が公開されており、animateMotion要素を用いて、速度を変えつつオブジェクトを動作させる記述が規定されている。SVGのアニメーション規定はSMIL Animationを流用したもので、こちらはWorking Draftが1999年10月29日に公開されている。この先行技術は本特許(2001年1月5日出願)の無効化理由になりうると考えられる。

本特許は請求項1の他に5,8,11,14,17,19,24が独立請求項となっている。請求項5はウィンドウが速度を変えながら最小化する動作、請求項8はオブジェクトを消したとき、他のオブジェクトが空きスペースを埋めるとき速度を変えつつ動く動作、請求項11は同じく挿入時に他のオブジェクトがずれるとき速度を変えつつ動く動作、後は媒体クレームである。特許無効審判を起こす場合には、これらの独立請求項についても争う必要があるだろう。

United States Patent: 7479949 Touch screen device, method, and graphical user interface for determining commands by applying heuristics

1. A computing device, comprising: a touch screen display; one or more processors; memory; and one or more programs, wherein the one or more programs are stored in the memory and configured to be executed by the one or more processors, the one or more programs including: instructions for detecting one or more finger contacts with the touch screen display; instructions for applying one or more heuristics to the one or more finger contacts to determine a command for the device; and instructions for processing the command; wherein the one or more heuristics comprise: a vertical screen scrolling heuristic for determining that the one or more finger contacts correspond to a one-dimensional vertical screen scrolling command rather than a two-dimensional screen translation command based on an angle of initial movement of a finger contact with respect to the touch screen display; a two-dimensional screen translation heuristic for determining that the one or more finger contacts correspond to the two-dimensional screen translation command rather than the one-dimensional vertical screen scrolling command based on the angle of initial movement of the finger contact with respect to the touch screen display; and a next item heuristic for determining that the one or more finger contacts correspond to a command to transition from displaying a respective item in a set of items to displaying a next item in the set of items.

【請求項1】電子計算機であって、タッチスクリーンディスプレイと、1つか複数のプロセッサとメモリと、1つか複数のプログラムを有し、
前記1つか複数のプログラムは前記メモリに格納され、前記1つか複数のプロセッサで実行されるよう構成され、
前記1つか複数のプログラムは次を含み、

  • タッチスクリーンへの1本か複数の指の接触を検出する命令、
  • その1本か複数の指の接触に1つか複数のヒューリスティックを割り当て、デバイスへのコマンドを決定する命令、
  • そして決定されたコマンドを実行する命令

前記1つか複数のヒューリスティックは次を含む。

  • タッチスクリーンへの指の接触の初動作の角度に基づいて、2次元のスクリーン移動ではなく、1次元の垂直画面スクロールコマンドに、前記指の接触を結びつける垂直画面スクロールヒューリスティックと、
  • タッチスクリーンへの指の接触の初期動作の角度に基づいて、1次元の垂直画面スクロールではなく、2次元のスクリーン移動コマンドに、前記指の接触を結びつける2次元のスクリーン移動ヒューリスティックと、
  • アイテムセット中のあるアイテムの表示から次のアイテムの表示に移行するためのコマンドに、前記指の接触を結びつける次アイテムヒューリスティック

マルチタッチ操作に関する特許で、垂直スクロールと他の移動操作を指の動かす角度に従って区別し、さらには、次の画像とか次の動画とかに遷移するようなタッチ操作を有していると抵触する可能性がある。電子書籍のページ操作(垂直スクロール、移動、ページ送り)などの操作は該当しそうだ。

United States Patent: 7657849 Unlocking a device by performing gestures on an unlock image

1. A method of controlling an electronic device with a touch-sensitive display, comprising: detecting contact with the touch-sensitive display while the device is in a user-interface lock state; moving an unlock image along a predefined displayed path on the touch-sensitive display in accordance with the contact, wherein the unlock image is a graphical, interactive user-interface object with which a user interacts in order to unlock the device; transitioning the device to a user-interface unlock state if the detected contact corresponds to a predefined gesture; and maintaining the device in the user-interface lock state if the detected contact does not correspond to the predefined gesture.

【請求項1】タッチスクリーンを有する電子デバイスを制御する方法であって、

  • バイスがロック状態にある時にタッチスクリーンへの接触を検出し、
  • その接触にしたがって、タッチスクリーンに予め定められた表示パスに従ってアンロック画像を移動させ、
  • そのアンロック画像は、グラフィカルでインタラクティブなUIオブジェクトであって、デバイスをアンロックするため利用され、
  • 検出された接触が予め定められたジェスチャに一致した場合には、デバイスをアンロック状態に遷移させ、
  • もし検出された接触が予め定められたジェスチャに一致しない場合には、デバイスをロック状態のまま保つ、

ことを特徴とする方法。

iPhoneのアンロック画面で、指をスライドさせてロック解除するUIがほぼそのまま権利化されている。今まで出たタッチスクリーン端末はほとんど抵触しているのではないだろうか。スライド式UIを使わずにロックを解除する方法を編み出す必要があるだろう。


[0]

United States Patent: 7469381 List scrolling and document translation, scaling, and rotation on a touch-screen display

1. A computer-implemented method, comprising: at a device with a touch screen display: displaying a first portion of an electronic document; detecting a movement of an object on or near the touch screen display; in response to detecting the movement, translating the electronic document displayed on the touch screen display in a first direction to display a second portion of the electronic document, wherein the second portion is different from the first portion; in response to an edge of the electronic document being reached while translating the electronic document in the first direction while the object is still detected on or near the touch screen display: displaying an area beyond the edge of the document, and displaying a third portion of the electronic document, wherein the third portion is smaller than the first portion; and in response to detecting that the object is no longer on or near the touch screen display, translating the electronic document in a second direction until the area beyond the edge of the electronic document is no longer displayed to display a fourth portion of the electronic document, wherein the fourth portion is different from the first portion.

【請求項1】コンピュータに実装された方法であって、
タッチスクリーンを備えたデバイスにおいて、

  • 電子文書の第1の部分を表示し、
  • タッチスクリーン上か近傍のオブジェクトの移動を検出し、
  • 検出された移動に伴い、電子文書の第1の部分とは異なる第2の部分を表示するために、タッチスクリーン上の電子文書を第1の方向に平行移動させ、
  • 第1の方向に移動している最中に電子文書の端に到達した場合に、オブジェクトがまだタッチスクリーン上か近傍に検出されている場合に、電子文書の端より先の部分と第1の部分よりも小さな電子文書の第3の部分を表示し、
  • オブジェクトがタッチスクリーン上か近傍に検出されなくなった場合に、電子文書の端より先の部分が見えなくなるまで移動し、第1の部分とは異なる第4の部分が表示されるように第2の方向に平行移動させる、

ことを特徴とする方法。

タッチスクリーン上でドキュメントを表示させ、スクロール中に文書端まで移動してしまった際に文書の外の領域が表示され、指を離すと元に戻るようなUIが権利化されている。電子書籍端末においても抵触の可能性があるだろう。




United States Patent: 5920726 System and method for managing power conditions within a digital camera device

1. A system for managing power conditions in a digital camera device, comprising:
a processor coupled to said digital camera device for controlling said digital camera device; and
a power manager coupled to said processor, said power manager including registers for containing status information, interrupt information, and control information;
said power manager providing said status information, said interrupt information, and said control information to said processor for controlling said digital camera device.

【請求項1】デジタルカメラバイスの電源状態を管理するシステムであって、
前記デジタルカメラバイスに結合され、前記デジタルカメラバイスを制御するためのプロセッサと、
前記プロセッサに結合され、ステータス情報とインタラプト情報と制御情報を格納する為のレジスタを含むパワーマネージャーから構成され、
前記パワーマネージャーは、前記デジタルカメラバイスを制御するために前記プロセッサに前記ステータス情報と前記インタラプト情報と前記制御情報を供給することを特徴とするシステム。

シンプルすぎてどこが特徴なのか分かり難い特許だが、電源管理が可能なカメラモジュールがクレームされている。カメラモジュールから渡される情報が、ステータス、割り込み、制御情報と解釈可能な場合には抵触の可能性がある。

United States Patent: 7633076 Automated response to and sensing of user activity in portable devices

1. A portable data processing device comprising: a display; an input device; a proximity sensor; at least one processor coupled to the input device and to the display and coupled to the proximity sensor to receive data from the proximity sensor; a radio frequency (RF) transceiver coupled to the processor; a speaker coupled to the RF transceiver; a microphone coupled to the RF transceiver; a storage device coupled to the at least one processor; an ambient light sensor (ALS) coupled to the at least one processor, wherein the at least one processor is configured to change the power setting of the display based upon data from the ALS; wherein the processor is configured to determine, based upon at least the data from the proximity sensor, whether to change a state of processing of data from the input device relative to receipt of user inputs; wherein the input device comprises a multi-touch input panel which is integrated with the display and which is capable of determining multiple, separate concurrent touches on the multi-touch input panel and wherein the multi-touch input panel provides touch data derived from one or more touches to the multi-touch input panel and wherein when the data from the proximity sensor determines a first proximity state, the touch data is processed as an intentional user input and when the data from the proximity sensor determines a second proximity state, the touch data is either not processed as an intentional user input or is not provided by the multi-touch input panel; wherein the second proximity state occurs when the portable data processing device is proximate to the user's ear; wherein the storage device is configured to store media for playback on the portable data processing device, and wherein the data from the proximity sensor represents at least one of a distance and a rate of change of distance; and wherein the at least one processor is configured to change the state of processing of the touch data from the multi-touch input panel in response to a change in the data from the proximity sensor.

【請求項1】ポータブルデータ処理装置であって、

  • ディスプレイと
  • 入力デバイス
  • 近接センサと
  • 入力デバイスとディスプレイと結合され、近接センサからデータを受信するために近接センサと結合された少なくとも一つのプロセッサと
  • プロセッサに結合されたRF送受信機と
  • RF送受信機と結合されたスピーカーと
  • RF送受信機と結合されたマイクロフォンと
  • 少なくとも1つのプロセッサと結合されたストレージデバイス
  • 少なくとも1つのプロセッサと結合された環境光センサ(ALS)であって、少なくとも1つのプロセッサがALSからのデータに基づきディスプレイのパワー設定を構成し、
  • プロセッサは、少なくとも近接センサからのデータに基づき、ユーザ入力の受理に対応する入力デバイスからのデータ処理の状態を変更するかどうか決定を行うよう構成され、
  • 入力デバイスは、ディスプレイに統合され、複数の分散した同時タッチ検出に対応したマルチタッチインプットパネルから構成され、マルチタッチインプットパネルはパネルへの1つないし複数のタッチにより生成された接触データを提供し、近接センサのデータが第1の近接状態にある時は、接触データを意図的なユーザ入力として処理し、近接センサのデータが第2の近接状態にある時には、接触データは意図的なユーザ入力として処理されないか、マルチタッチインプットパネルからデータ自体が供給されず、
  • ここで第2の近接状態は、ポータブルデータ処理装置がユーザの耳に近接する時に発生し、
  • ストレージデバイスはポータブルデータ処理装置において再生するためにメディアを格納するよう構成され、近接センサからのデータは少なくとも距離か距離の変化レートのどちらかを表し、
  • 少なくとも1つのプロセッサは近接センサからのデータの変化に伴い、マルチタッチインプットパネルからの接触データ処理の状態を変更するよう構成された

ことを特徴とする情報処理装置。

特許のコンセプトとしては、近接センサによってユーザが耳にあてているのかそうでないのかを判断し、耳に当てている時には意図的なユーザ入力だとみなさない事で、誤入力を回避するという手法である。全面タッチパネルデバイスには必要不可欠の技術だろう。Google 音声検索ではデバイスを耳に当てて発話する事でボタンを押さずに音声検索を行う事ができるようになっているが、その切替には近接センサが利用されている(タッチ入力の抑制を行っているかどうかは定かではない)。



一見長く複雑な請求項となっており特許の本質とは関係がない余計な構成が多く入っているが、これらの構成(マイクロフォン、ストレージデバイス、ALS等)はスマートフォンならば通常備えているものだ。そのため、請求項が長く複雑だからといって抵触の危険性が少ないと判断するのは早計である。

まとめ

あと明らかにされたのは、「5,848,105」「7,383,453」「5,455,599」「6,424,354」の4件であり、「5,848,105」は多重信号から所望の信号を得るために時間的ないしは周波数的にシフトする事で分離する技術に関する特許である。「7,383,453」は省電力制御に関する特許。省電力モードにも関わらず電圧値を上げることが特徴か?(よくわかりません)

「5,455,599」はグラフィック処理を複数のグラフィックデバイスに選択的に出力する際に、仮想的なグラフィックポートに接続する事で、出力先を決定するものだろうか。そうしたGUIを提供しているのであれば抵触の可能性があるし、内部処理として請求項に記載されたステップを実行していても抵触の可能性がある。最後の「6,424,354」はイベント通知処理に関する特許だ。

特にUIに関するソフトウェア特許は侵害が見てわかるという意味で非常に強力である。また、バイナリしか提供しないソフトウェアであるならば、内部処理に関しては侵害検出が困難なのだが、Androidはソースが公開されているため、内部的な処理であったとしても、侵害検出が可能という脆さがある。

Appleの特許は基本的な使い勝手に直結するところを抑えてあり、仮にこれを回避して実装を行おうとするとユーザエクスペリエンスを損なう可能性が高い。これはソフトウェア特許の問題点の一つとして、度々指摘される部分である。仮にAppleがこれらの特許に基づいて強行的な手段に出れば*1スマートデバイスはとてもスマートとは言えないものになってしまうだろう。

是非、各社には持続的に発展ができ、共存できる解決策を見つけてもらいたい。

*1:今回AppleがHTCを訴えたのは、HTCへの反訴であり防衛的な反応であるとも言える。たとえば、AppleNokiaに対しても、同様の反訴を行っている(Apple Countersues Nokia)。しかし、Appleのような大企業が新興企業であるHTCを訴え、ITCにHTC端末の輸入差し止めを求めた事実は大きい。知的財産権の蓄積を持たない新興企業は、クロスライセンスなどの和解案を採る事ができず、仮に訴訟で負ければ事業の存続が危うくなる。莫大な訴訟費用をどのように工面するかも問題だ。AppleAndroidとの競争において、Googleではなく脆弱なHTCを攻撃対象に選んだ。

ブラを着けると乳ガンの罹患リスクが跳ね上がるって本当?

レコードチャイナはブラジャーを1日12時間以上付ける女性、乳がんのリスクが21倍に―米国立癌研究所」として、ブラジャーの着用が乳ガン罹患リスクを増加させるとの報道を行った。

2010年5月5日、ブラジャーを1日12時間以上着用する女性は、全く着用しない女性と比べ、乳がんのリスクが21倍も高くなることが米国立癌研究所の研究で分かった。黒竜江晨報が伝えた。

記事によれば、同研究所がブラジャーの着用時間と乳がんとの因果関係について調査した結果、習慣的に長時間ブラジャーを着用する女性は乳がんなど乳房の病気にかかりやすいことが分かった。1日12時間以上着用する女性は全く着用しない女性の21倍、就寝時も着用する女性は同100倍も罹患率が高まるという。形が崩れるのを気にして就寝時もブラを外さない女性は要注意だ。

http://www.recordchina.co.jp/group.php?groupid=41920

これが真実であるとすれば一大事だ。厳しい広告規制がされているたばこでさえリスク増加は数倍程度だ。20倍から100倍も増加するとなれば、国を挙げてノーブラを推奨せねばなるまい。ところが、当の米国立癌研究所(NCI: National Cancer Institute)のサイトを探しても、該当するような研究成果は見つからない。


【告知】@LunarModule7でつぶやいています。
興味のあるかたはフォローください。

Dressed to Kill

実はこの記事で上げられた研究は米国立癌研究所(NCI)とはまったく関係がない。元ネタは、1991年から1993年にかけて行われ、Dressed to Kill: The Link Between Breast Cancer and Brasという書籍にまとめられた研究のようだ。世界の三面記事・オモロイドさんのところで紹介されているので、以下に要点を引用する(強調はLM-7による)。

彼等は、ブラジャーがリンパ系を締め付け、発癌性のある毒素が乳房内に滞留し乳癌を発症させるのではないかと考える。リンパ系は免疫機構の一部であり、体内から老廃物や毒素を取り除く役目を果たしている。多くの毒素は体脂肪内に蓄積するため、その大部分が脂肪組織で構成される乳房から毒素が排除されることは特に重要だ。しかし、女性がブラ、特に(ワイヤー入りブラのように補正力が強く)体にきついものを身につけた場合、乳房組織が締め付けられ、リンパ系の毒素排除機能が妨げられてしまう。乳房のリンパ腺は皮膚に近いので圧迫されやすいのだ。そして、乳房に滞留した毒素は、正常な細胞をガン細胞へと変貌させていくわけだ

彼等はこの仮説を検証してみるべく2年半にわたるリサーチを行っている。1991年5月から1993年11月までの期間、米国の五つの都市 - サンフランシスコ、デンバー、フィーニックス、ダラス、ニューヨーク - を訪問し、乳癌を患っている女性2,056人と乳癌と診断されたことがない女性2,674人の合計4,730人の女性たちからアンケートをとり、ブラジャーの使用状況について調査した。以下の表はその調査結果をまとめたものである。


ブラジャーの着用時間と乳癌罹患率
番号ブラジャーの着用時間乳癌罹患率罹患率の対比
(1)24時間3/4(1):(4)= 125
(1):(3)= 113
(2)12時間以上、ただし就寝時は着用せず1/7(2):(3)= 21
(3)12時間未満1/152(3):(4)= 1.1
(4)全く/ほとんど着用せず1/168

ブラジャーを毎日12時間以上着用すると、乳癌のリスクが21倍に増大(米研究) | 世界の三面記事・オモロイド

ブラ着用と乳ガンの罹患リスクに因果関係があるのか?

確かに調査結果が正しいとするならば、女性は夜寝る時にはブラを外して寝るようにした方が良さそうだ。乳房のリンパ腺が圧迫されて毒素排除機能が妨げられるというもっともらしい説明を聞かされると、そんな事もあるのかもと思ってしまう。

しかし、その調査方法および結論に関しては、多くの疑問が投げかけられている。Scientific Americanは"Fact or Fiction? Underwire Bras Cause Cancer"において、ブラ着用と乳ガン罹患の相関は科学的に証明されていないと主張している。本研究は、乳ガンの既知の危険因子の存在等の交絡変数の排除ができておらず、相関があるとの証拠にはならないという。

米国立癌研究所(NCI)のLouise Brinton氏によれば、一般的に乳ガンの危険因子は内因性ホルモンレベルに影響を与えるものだと考えられているという。これらの危険因子には、女性の年齢や初産年齢が含まれる(子どものいない女性および30歳を越えて初産を迎えた女性の乳ガン罹患リスクは増大する)。家族の中に乳ガンになった人がいれば乳ガンにかかるリスクは高くなるが、授乳や運動によってリスクを下げる事ができると考えられている。また、5-10%の乳ガンはBRCA1とBRCA2の遺伝子変異に関連していることが分かっている。こうした危険因子の影響の除外がなされていない上述の調査結果をもって、ブラ着用と乳ガンの因果関係を論じる事はできない。

Breastcancer.orgのMarisa Weiss女史によれば、ブラ着用によって乳房に滞留した毒素が乳ガンの原因となるという話は一見もっともらしいが、信憑性は疑わしいという。体液は実際には腋の外側を上昇していくのであって、ブラジャーのワイヤの方に下がっていって滞留するということは無いようだ。

結論

なぜかレコードチャイナによって研究主体とされてしまった米国立癌研究所(NCI)は自身のWebサイトで乳ガンの危険因子に対する誤解として次のように注意喚起をしている(強調はLM-7による)。

Misunderstandings About Breast Cancer Risk Factors

There are a number of misconceptions about what can cause breast cancer. These include, but are not limited to, using deodorants or antiperspirants, wearing an underwire bra, having a miscarriage or induced abortion, or bumping or bruising breast tissue. However, none of these factors has been shown to increase a woman's risk of breast cancer. In addition, cancer is not contagious; no one can "catch" cancer from another person.

Reproductive History and Cancer Risk - National Cancer Institute

デオドラントや制汗剤の使用、ワイヤー入りブラの着用、流産や人工流産、乳房の打撲等に関しては、現在のところ、乳ガンの罹患リスクを上昇させる科学的に信用に足る報告は一切なされていないというのが、米国立癌研究所の公式見解である。

というわけで、ブラ着用が乳ガン罹患リスクを増大させるという事は今のところ無いと考えて良さそうだ。どうか安心してブラを着用していただきたい。ちなみに、今までの研究によれば、ブラをしないとバストが垂れるというのは迷信で、むしろ普段の生活では極力ブラを着用せず、激しい運動を行う時のみブラを着用するようにする方が良いようですよ*1

謝辞

本エントリを作成するに当たり、@popeetheclownさんから多くの情報提供をいただいた。感謝いたします。

ライセンス

利用した写真はFile:Circa 1975 Wonderbra.jpgであり、ライセンス条件についてはリンク先に記載されている。

コンピュータ将棋の現状:三人寄れば文殊の知恵は正しいか?

4月2日に情報処理学会が日本将棋連盟に「コンピュータ将棋」で挑戦状を送ったことが話題になった*1日本将棋連盟は挑戦を受諾、女流棋界の第一人者、清水市代女流王将女流王位が対戦相手と決まった。対戦は今秋から順次行われるという。



情報処理学会挑戦状に関するFAQによれば、対戦ソフトウェアに関して次のように記されている。

Q:対戦ソフトウェアは既に決まっているか
A:合議アルゴリズムを用いる方針になっています。複数のソフトウェアを疎結合で並列計算させて、それらの意見を集約して、次の一手を決定する手法です。現在のところ、限られた実験では効果が認められており、これを実際の対局に用いる方向で検討しています。個々の参加ソフトウェアの候補は、プロジェクトに現時点で参加しているGPS将棋、Bonanza、激指、YSS、TACOS、柿木将棋などです。これを実用的にどのように組みあわせるのかは、実験を元に決めていきます。合議より単独が強ければ単独の可能性もあります。決定は本番一か月前までを予定しています。

挑戦状に関するFAQ

合議アルゴリズムとは何なのか? そもそも現在のコンピュータ将棋のレベルはどの程度なのか? 実は当の情報処理学会の学会誌である情報処理2009年9月号では「コンピュータ将棋の新しい波」という小特集が組まれており、コンピュータ将棋の現状を知る事ができる。現在までのコンピュータ将棋の歴史に関しては俺の邪悪なメモさんが『人間VSコンピューター この世紀の決戦を楽しむために』という素晴らしいエントリをアップされているので、そちらを参照してもらうとして、本エントリでは前述の特集を参照して、現在のコンピュータ将棋のレベルを紹介したい。


【告知】@LunarModule7でつぶやいています。
興味のあるかたはフォローください。

プロ棋士が見たコンピュータ将棋の棋力

コンピュータ将棋を長年フォローしている勝又六段が「プロ棋士から見たコンピュータ将棋」という論文で、現在のコンピュータ将棋の棋力を評価している。

Bonanzaメソッド(後述)の浸透により、機械学習により評価関数を鍛える事によって、形勢判断を正確に行えるようになった。一昔前は数値化しやすい駒の損得に大きなウェイトが与えられてていたため、遊び駒を大量に作る傾向が見られたが、最近では駒の損得よりも効率を重視するようになってきているようだ。

勝又六段は昨年の世界コンピュータ将棋選手権の盤面の中から2つの象徴的な場面を上げている。1つ目は決勝リーグ1回戦GPS将棋対KCC*2戦である。図1は相矢倉から▲2五桂と銀取りに跳ねた場面である。

図1図2

図1以下の手順は次の通りだ。

△4五歩!▲3三桂成△同角▲3七角
△5三桂▲6六銀△6五桂左▲2八飛
△8六歩▲同歩△7五銀!▲同歩
△8六飛(図2)

勝又六段は次のように解説している(図番号のみエントリにあわせて修正している)。

将棋が詳しくない方は、駒の損得だけ見ていただきたい。いきなりの銀桂交換からさらに銀を捨てている。中盤に入ったばかりの場面でこんな駒損の攻めは今まで見られなかった。Bonanzaよりも過激だ。

何でこの攻めができたかというと評価関数が精密になったためである。銀桂交換でも玉をにらむ位置に角が移動する事で、角の価値を大幅にアップさせ、先手の家(囲い)の資産価値を大幅にダウンさせる。そのため得な取引と読み、先の△7五銀の銀捨てまでたどりついたのだ。図2で十字飛車が決まって後手優勢。図からは▲9八玉に△8八歩▲同金△6六飛▲同金△同角と飛車を捨て、さらには角までも切って攻め、すべての攻め駒をさばいて金銀5枚の持ち駒という資産に変えて快勝した。

ただし、厳密に言えばGPS将棋のこの攻めが成立していたかは微妙だという。途中△3三角に▲2八飛ではなく▲7九玉△2四角▲6九玉と、囲いの外へ出れば攻めるのは大変だった。玉が囲いの外に出る手は先手にとって評価値を大きく下げる手であるので、後手は読む事ができなかったのではないかと推測される。

2つ目はGPS将棋激指の盤面である。図3はGPSが▲5八桂と打ち、飛車角の利きを消した場面だ。


図3図4

図3以下の手順は次の通りだ。

△4七歩成▲同金直△6六銀▲9二馬!
△6七飛成▲4六桂!△4三銀打▲同歩成
△同金▲4四歩△同金▲5三銀
△4五歩▲同桂△同金▲3四桂
△1三玉▲4二銀不成△同金▲同桂成(図4)

勝又六段の解説は次の通りだ。

激指は△6六銀の銀捨てで速度を上げてくるが、ここで▲9二馬と引いて4七の金にヒモを付けてから、▲4六桂がうまい手順。5八の桂は受けのためではなく、攻めのためだったのだ。結局桂が5八〜4六〜3四〜4二と天使の跳躍で寄せきった。

攻めだけではなく、受けの手をはさみながら正確な速度計算をする。寄せるまでの構図が絶品で、プロでも時間をかけなければ読み切る事ができない困難な手順である。これを指せたGPSには感嘆せざるを得ない。

ちなみにこの将棋、駒がぶつかって一段落した後、GPSは高美濃→銀冠へと囲いを改築している。攻め合いを制したのはこの囲いの価値で差が出たものだ。戦っている途中でも攻めずに形を整えるという手が指せたのも今年の進歩だ。

勝又六段は昨年の世界コンピュータ将棋選手権において改良された点を次のように総括している。

  1. 駒の効率を正しく理解できるようになった。
  2. GPS-激指戦のように詰みの前の段階から、終盤の入り口から正確に指せるようになった。
  3. 局面によって差し手に強弱が付けられるようになった。

そして、現在の棋力は早指しで四段、長い将棋で二段以上、三段近くはあり、今年はプロ四段認定となりそうだという。トッププロに追いつくのはさらに3年の間と勝又六段は予想している。

最近のコンピュータ将棋のアルゴリズム

最近のコンピュータ将棋の技術背景とGPS将棋」では昨年の世界コンピュータ将棋選手権の覇者となったGPS将棋のアルゴリズムについて概略が述べられている。

ほとんどのコンピュータ将棋では自分の手と相手の手を網羅的に記述したゲーム木を用いて、自分の差し手を決めている。ゲーム木の各ノードには局面の形勢判断、すなわち勝ちやすさを表す評価値が与えられており、先手番(Max node)では最大の評価値を、後手番(Min node)では最小の評価値を選択していく。将棋のような2人/零和/確定/完全情報ゲームに分類されるゲームは、原理的には、このMaxMin探索を行う事で必勝法を求める事ができることが知られている*3

少しでも深く分岐を読む

評価値には誤りが含まれるため、少しでも深い探索(一手でも先を読む)ことがコンピュータ将棋の強さに直結する。そのための戦略は2つあり、1つは単位時間あたりの探索局面数、すなわち探索速度を上げる戦略である。これには、マシン性能の向上、複数CPU/コアによる並列計算、ハードウェア化*4による高速演算などの手法が採られている。毎年コンピュータの性能は向上していくことから、コンピュータ将棋は毎年確実に強くなると期待される。

もう1つの戦略はメリハリを付けて読むことである。ゲーム木の全ての分岐を同じように読むのではなく、重要な分岐は深く、重要でない分岐は浅い段階で思い切って切り捨てればよい。これを枝刈と呼ぶが、論理的に読む必要がない部分の枝刈(αβ法)に加えて、多少のリスクを覚悟の上で、重要度の低い部分の枝刈を行う。

コンピュータ将棋では、王手や取り返しの場合は深く読むなど、将棋の特徴を活かした枝刈の手法が考案されており、中には非常に複雑な条件が指定されているものもあるようだ。このようなゲームの特徴を用いた枝刈は選択的探索と呼ばれる。一方、Bonanzaは、ゲーム特徴を用いず汎用的な枝刈のみを行う戦略を採っており、全幅探索と呼ばれる。もともと将棋では分岐の数が極めて多くなる事から将棋の特性を活かした選択的探索が有効であるとされていたが、全幅探索を行うBonanzaの成功から、全幅探索の有効性が見直されつつあるようだ。

世界コンピュータ将棋選手権で過去3回の優勝経験を持つ激指は実現関数と呼ばれる独自の探索を行っている。実現関数探索では、実際にその指し手が実現する確率を用意し、ルート局面から当該局面までの実現確率の積が閾値を下回ると探索を打ち切る。実現確率は、動かす駒の範囲、指手の履歴、指す駒に関する損得などプロ棋士棋譜を利用して求められる。こうして、実現可能性の高い指し手を優先的に探索する事が可能となっている。

正確な評価値を得るには

正確な評価値を得る事は難しい。評価値を定める関数を評価関数と呼ぶが、ある局面の勝ちやすさを数値化する事は困難を極める。もともと評価関数は手作業でチューニングが施されるのが普通で、制作者が試行錯誤を積み重ねて、良い評価関数を追い求めてきた経緯がある。評価関数をどう調整するかは各プログラムが個性を発揮する部分であったわけだが、Bonanzaの登場が大きなブレークスルーとなった。

Bonanzaはこの評価関数を学習によって調整する手法、Bonanzaメソッドを初めて導入した。学習を導入する事で制作者は手作業で評価関数を調整する手間を省く事ができるようになり、膨大なプロの対戦棋譜データベースに基づいて評価関数を鍛える事が可能となった。昨年の世界コンピュータ将棋選手権では、学習を採用したプログラムが上位を占め、Bonanzaメソッドが有望視されている。

将棋の形勢判断を行うためには、駒の損得、働き、玉の危険度等を評価する必要がある。これは言葉にしてしまうと簡単だが、これをコンピュータに評価させる事は大変難しい。Bonanzaでは局面に登場する3駒の組合せそれぞれに値を付けて合計する事で評価値としている。全ての組合せを計算するのではなく、一定の制限が加えられているがそれでもパラメタ数は2億近くとなる。一方、GPS将棋では、人間が考える特徴に近いルールを100程度用意し、300万程度のパラメタを扱っているようだ。これらのパラメタは学習によって調整され、より妥当な形勢判断が行えるようにチューニングされる。

ここで上げた技術の積み重ねによってコンピュータ将棋は今やトッププロの背中が見える位置までその棋力を向上させてきたのである。

合議アルゴリズムの登場

そして、台風の目となり、物議を醸したのが合議アルゴリズムの登場である。「合議アルゴリズム「文殊」 単純多数決で勝率を上げる新技術」では、この新技術によってコンピュータ将棋界に一大センセーションを巻き起こした「文殊」の開発者がその概要について解説を行っている。文殊は初登場ながら、昨年の世界コンピュータ将棋選手権において3位という成績を収めた。しかしその成績以上に文殊は注目を浴びる事となった。

文殊」の合議アルゴリズムとは簡単に言えば、複数のプログラムに独立に候補手を考えさせて、単純多数決により最も多い手を次の一手とするものだ。三人寄れば文殊の知恵という諺があるが、単純に数を増やすだけで強くなるのではないかというのが最初の発想である。とはいえ、当初は「そんな単純な方法で強くなるはずはない」「一貫した思考が行えず、かえって弱くなるのではないか」といった批判が圧倒的だったようだ。しかし、市販ソフトを用いて簡単な初期実験を行ったところ、合議させた方が勝率が有意に上がる結果が得られたという。

そして、2008年後半から2009年初頭にかけて、コンピュータ将棋において大きな転換期が訪れる。2006年世界コンピュータ将棋選手権の覇者であり、最強プログラムの一つであるBonanzaソースコードが公開され、2009年1月には世界コンピュータ将棋選手権用のライブラリも提供されたのである。このライブラリを利用すれば誰でもBonanzaの強さを有する将棋プログラムを労せずして作る事ができるようになったのだ。

Bonanzaのようなトップレベルのプログラムのライブラリが提供される事は、世界コンピュータ将棋選手権としても想定外のことであった。全体としてのレベルは上がるかも知れないが、一からコツコツと独自のプログラムを作って来た開発者の意欲を失わせかねず、ひいては世界コンピュータ将棋選手権の有効性を失わせかねない事態であると危惧されたのだ。Bonanzaライブラリを用いたプログラムが上位を独占したらどうするのか? そのあたりの議論の一端は、世界コンピュータ将棋選手権・オープンな価値との葛藤でも見る事ができる。

そうした懸念が渦巻く中、投入されたのが8コアのXeonマシンを3台連ねた「文殊」である。文殊は各4コアに配置された6つのBonanzaを並列して走らせ、合議によって次の1手を決めるプログラムである。各Bonanzaの用いる評価関数には正規乱数が加えられ、評価関数の異なるパフォーマンスが得られるように調整されていた。

ある一定の探索時間を経て多数決を行うわけだが、6つのBonanzaのうち5つ以上候補結果が一致しなかった場合、意見が分かれるという事は難しい局面であろうという推定の元、探索延長を3段階まで行う処理が追加された。

また、相手の思考時間中にも継続して探索を行うために、指し手を返す時には、読み筋もあわせて返すようにして、二手先の手を合議で予測手とし、それを全てのBonanzaに伝え、相手の思考時間中にもその予測手に応じて先読みを継続させたという。

文殊は順調に予選を勝ち上がり、決勝リーグに駒を進めた。次に決勝リーグの対戦成績を示す。



プログラム名1234567SBMD順位
1激指7○3○252.00.06
2Bonanza7○5○1○348.02.05
3YSS2○163.00.07
4KCC将棋2○7○1○3○437.03.04
5文殊1○3○4○7○6○5214.07.03
6GPS将棋4○1○2○3○8○7○6117.010.01
7習甦3○161.00.08
8大槻将棋2○4○3○1○5○7○6116.010.02

文殊Bonanzaとの直接対決では敗れたものの、総合順位では5位のBonanzaを上回る3位という上々の結果を残した(なぜ合議の文殊が単体のBonanzaに負けたのか原因を推測することは興味深い)。一度のみの対戦で結論を導く事はできないが、少なくとも合議アルゴリズムが有効に機能する事は十分に示されていると考えて良いだろう。合議アルゴリズムにおいては個々のプログラムは任意であり、Bonanza以外のプログラムも問題なく利用できる。事実、YSSを用いた実験においても効果が認められている。清水市代女流王将女流王位との対戦においては、複数のプログラムを組み合わせた合議システムを検討しているとされる。

現在のところ、三人寄れば文殊の知恵という諺は成立しているようだが、これがいつまで正しいかは分からない。せっかく一つのプログラムが神の手に到達したとしても、多数決によって否定されてしまうのではかえって弱くなってしまうのではないかと考えるのは極めて真っ当だ。特集では次のような識者の見解が紹介されている。

合議が一定の結果を得ているのは、先に悪手を指してしまうとなかなか勝てないが、妙手を連発しなくてもなんとか均衡を保って、相手が先に悪手を指せば勝てる、という将棋の特性ではないかと思います。個々のレベルは互角でそのうち悪手を指すレベル同士ならば、合議の意味があるのではないかと思います。相手が格上だと駄目かも知れません。

清水市代女流王将女流王位との対戦において合議がうまく機能するのか、あるいは単一のプログラムの方が良い勝負ができるのか、今秋に予定されている対戦が楽しみだ。

実は5月4日から2010年の世界コンピュータ将棋選手権が開催される予定となっている。参加チーム一覧を見ると、Bonanzaメソッドの浸透により、学習によって評価関数の精度を向上させたプログラムが多く参戦しているようだ。またBonanzaを並列に結合させた合議アルゴリズムを採るプログラムの姿も見える。

選手権の様子はインターネット上で中継される上に、5月4日の決勝は一般向けにプロ棋士による解説会も行われるようだ。第20回世界コンピュータ将棋選手権 10のみどころが挙げられているので、興味のある方は見てみてはいかがだろうか(宣伝)。

今年は一体どのようなイノベーションが生まれるのか、コンピュータ将棋はどれだけ強くなっているのか、プロ棋士に一矢報いる日は早まりそうなのか、世界コンピュータ将棋選手権における各プログラムの活躍に期待したい。

*1:このプレスリリースはお堅い(と思われている)学会が出すプレスリリースとしては異色の出来で大変素晴らしい。是非とも今後ともこの路線を踏襲してもらいたいモノだ。

*2:KCC将棋:北朝鮮製の強豪プログラム。2009年の選手権に2年ぶりに復帰、予選を負け無しの16勝トップで通過したものの、決勝でソフトを入れ替えて3連敗、元に戻して4連勝の3勝4敗で4位となった。ソフトの入れ替えをしなければ優勝していたかも知れない強いプログラムである。

*3:実際には評価値に誤りが含まれる上、全ての分岐を読み切る事は不可能なので、必勝法を求める事はできない。

*4:世界コンピュータ将棋選手権にはA級リーグ指し手1号という名のFPGAを用いたプログラムが参加しているようだ。

米国が本当に必要だったもの



唐突に思いついたので投下。元ネタは『仕事を振られたときの正しいステータスコードの返しかた、読みかた』でも取り上げたITプロジェクトの実態を皮肉った漫画であり、University of London Computer Center Newsletter, No.53, March 1973の改変である(現在の公式ページ:Project Cartoon、オリジナルを追跡したページ:tree swing pictures - tire swing, tire swing, rope swing cartoon pictures)。

本物と見違えるような画像補間を実現するパスフレームワーク手法

SIGGRAPH2009で発表された"Moving Gradients: A Path-Based Method for Plausible Image Interpolation"という論文*1では、2枚の連続する入力画像を与えると、その間のフレームを極めて自然に補間生成する新たな手法を提案している。



図1

図1は両端の入力画像A, Bから間の3フレームを生成した例を示している。生成する補間フレーム数は任意で何枚でも生成可能であり、極めて自然な補間が実現できている。この例の驚くべきところは、制約条件を有する複雑で柔らかな局所変形を含む自然な補間画像が、全自動で生成されている点である。モーフィング処理では対応点を一点一点指定する必要があるが、ここで必要なのは2つの画像を選択するだけだ。

生成される補間画像の品質は素晴らしく、またアイデアもシンプルで興味深いので、原論文を参照して本手法の概要を紹介したい。本エントリで紹介する画像は全て原論文からの引用である。詳細は原論文を参照されたい。


【告知】@LunarModule7でつぶやいています。
興味のあるかたはフォローください。

基本的なアイデア



図2

基本的なアイデアは、補間フレームの各ピクセルは入力画像から引っ張ってこられるというものだ。図2(a)は画像AがtA=0からtB=1にかけてx方向に移動した画像Bの様子を示している。図2(b)はピクセルpの補間フレームを示したものだ。補間フレームは入力画像から移動してコピーする事で生成される。補間フレーム内のピクセルは最初入力画像Aからコピーされるが、途中のある点において入力画像Bからのコピーに遷移する。

図2(c)において、補間パスは画像Aピクセルpから開始し、画像AピクセルpAまで移動し、画像BピクセルpBに遷移し、画像Bピクセルpまで至る。パス上の遷移点(transition point)は、2つの画像が良くマッチする点から選択されるため、視覚的に自然な補間を得る事ができる。また2つの画像をブレンドするのではなく、遷移させる事で、ぼけやゴーストの発生を抑え、元画像の周波数成分を保存する事ができる。

このアルゴリズムオプティカルフロー*2に似ている(図2(d))。通常のオプティカルフローでは入力画像A,Bからピクセルを投影するが(図2(d)の矢印)、本手法ではオプティカルフローを効率的に逆に辿り、ある時間におけるピクセルが元画像のどこに対応しているかを計算し(図2(b)の矢印)、引っ張ってくる事によって実現されるとも言える。こうすることで、オプティカルフローで問題になるホールやノイズの問題を回避できる。

また、遮蔽に強いのも本手法の特徴である。遷移点を柔軟に設定可能であるため、たとえ片方の入力画像においてピクセルpが遮蔽されていたとしても、遷移点をパス上の適当なところに決める事で、自然な補間画像の生成が可能となる。補間パスは遮蔽の有無に限らずロバストに発見でき、後処理においてパスの一貫性をチェックするだけで遮蔽領域を決定できる。こうして、従来のオプティカルフローが不得意とする様な遮蔽を有する補間生成においても良い性能を発揮する。

アルゴリズム概要

ここではアルゴリズムの概要を述べる。実装の詳細は割愛するので原論文を参照していただきたい。

パスフレームワーク

上記のように基本的なアイデアは各ピクセルpにおいて補間パスを発見し、パス上の遷移点を経て、入力画像間を繋げることにある。図2で示した例は簡単のため水平移動を扱っているが、パスフレームワークはあらゆる線形パスを扱う事ができ、一般化されている。パスωは画像A,Bの2つの移動ベクトルmAmBを用いてω=(mA,mB)と表される。

補間フレームl=(p, t)上のピクセルpが与えられた時に、まずそのpは画像A,Bのどのピクセルから来たのかを算出する。標準的なオプティカルフローでは補間フレーム内の全てのピクセルが入力画像内に対応するピクセルを有するとは保証されないため、ホール(空白域)が生じる場合があるが、パスフレームワークではそのような問題は発生しない(補間フレーム上のピクセルが出発点なので)。また、オプティカルフローでは画像A, B間を直線のフローが結ぶ事を想定しており、曲線移動などは想定していない。一方、パスフレームワークはこのような制限を有しないため、急激に曲がるような場合を除いて大抵の動作に対応できる。その代わりに、パスフレームワークは補間フレームにおいてピクセルpを通る全てのピクセル/点は同一のフローを有する事を想定している。実際この仮定は、遮蔽の境界処理を除くほとんどの場合でうまくはたらく。ただしオプティカルフローもパスフレームワークも複雑なライティングの変化には対応できない。

もっともらしい遷移点の決定

図2(c)に示すように、ピクセルpの遷移点pApBはパス(mA,mB)によって次のように表される。


pA=p+mA  pB=p-mA  (1)

遷移点pApBは画像中で最も2つの画像がマッチするところに設定できる。遷移点の前後で動きの方向が変わらないようにするために次の制約を設けている。



図3(b)は図3(a)に示す2つのステレオ画像の各ピクセルの遷移点のパス全体における位置をパーセンテージで示したものだ。このパラメタはマッチングコストと密接に関連するが、画像全体で大きく変動している事が分かる。



図3

遷移点の導入は従来手法に比べて補間画像の品質を向上させる事に寄与している。実際標準的なオプティカルフローは遷移点をパスのどちらかの端に固定させているとも言える。パスフレームワークではオプティカルフローではなくパスを直接導出するが、遷移点間の距離から前方フロー、後方フローを予測することができる。


vA=pB-pA  vB=pA-pB  (2)

遮蔽から離れた領域では、前方フローと後方フローはほぼ等しくなる。遮蔽に関しては次に述べる。

遮蔽対応

遷移点導入がもたらすもう一つの利点は遮蔽を比較的シンプルに決定論的に扱う事ができる点にある。本手法では遮蔽において2つのレイヤ/オブジェクトだけが寄与する事を仮定している。3以上のレイヤ/オブジェクトが絡む場合は本手法では扱わない。



図4

図4(a)と(b)は2つのオブジェクトを示している。前面のオブジェクトはアルファベットで示され、背面のオブジェクトは数字で示されている。背面オブジェクトは静止しており、前面オブジェクトが4ピクセルだけ左に動く。結果として図4(c)に示すように、領域"0123"が画像Aにおいては遮蔽されて見えず、画像Bにおいて出現する。

図4(c)は一つのパス候補を示している。遷移は両方の画像において見えるgで起こる。一方、図4(d)は別解となる。これは遷移がfで起こっているだけで全く同様である。このように遮蔽があるからといって特別な考慮をせずともパスの導出が行える。これは最適化において遮蔽の解決が必要なオプティカルフローに比べて明確なアドバンテージとなる。

一旦パスが決定されれば、遷移点pApBが判明し、式(2)を用いてフローを導出できる。図4(c)と(d)は遮蔽領域のピクセルpにおけるフローを示している。画像Aにおけるpは画像Bと対応する点をもつため前方フローを予想する事はできる。しかし、背景オブジェクトの"1"は画像Aにおいては見えないので、後方フローを定義する事はできない。このようにパスフレームワークでは、それらが存在するならば、前方フロー、後方フロー、ないしはその両方を計算する。この特性によって遮蔽領域をロバストに検出する事が可能となる。

勾配/ポアソン再構築

さらに勾配ドメインを用いて補間を行う。一旦ピクセルpにおけるパスが導出されれば、ピクセルをパスに沿って移動させ勾配値をコピーする事で、補間フレームにおけるpの空間的勾配を得る。pの時間的勾配はこのパス上を動く2つの連続するピクセル間の輝度の差を見る事によって計算される。その上で、得られた勾配に基づき3Dポアソン再構築を行う事で補間フレームを得る。3Dポアソン再構築では、エラーが時間的にも空間的にも全ての補間フレームに渡って分散されるので、局所的なノイズの発生を抑える事ができる。さらにl2ノルムにおいて勾配が最短となる画像を生成するため、エッジを保護し、ぼけの発生を抑える事ができる。

評価



図5

図5は従来多く提案されてきたオプティカルフローによる画像補間処理との比較結果である。ここではhttp://vision.middlebury.edu/flow/で配付されているオプティカルフローデータセットを用いている。このサイトでは最新のオプティカルフローアルゴリズムの適用結果がまとめられており*3、画像処理ベンチマークとして広く利用されている。

図5は背景にあるボールが落下している様子を写したものだ。一番左が2枚の入力画像から生成された中間フレームの補間画像である。その一部を拡大した結果を右に示すが、Ground Truthが真値であり、本手法(Our Method)だけがボールの形状を失わず良い結果を得ている事が分かる。他のオプティカルフロー手法はボールが分裂するなど破綻している。また本手法ではゴーストの発生を抑制し、ボールの近くの遮蔽もほぼ正しく処理できている。遮蔽領域の縁付近には少しぼけが発生しているが、サブピクセルを用いたマッチングなどを適用し精度を上げればさらに改善すると期待できる。



図6

図6は本手法が想定していない複雑な例を示している。このバスケットボールの例では、手と背景とボールの3つのレイヤが絡み合っている。こうした2つ以上のレイヤが絡む複雑な遮蔽を含む画像においては、従来手法と同様に本手法(Our Method)でも正しい補間を行う事ができない。



図7

図7は本手法を構成する3つのステップ、遷移点の設定、遮蔽処理、そしてポアソンブレンディングがどれだけ結果に寄与するか見るために、図5で示した例に対して、各ステップを選択的に適用した結果を示している。結果を見れば分かるように3ステップそれぞれが補間画像の品質向上に寄与しており、これらの3ステップがあって初めて品質の良い補間画像が得られる事が分かる。



図8

図8は後処理によって遮蔽領域を検出した例を示している。遮蔽領域は青で示されているが、ボールの周辺や他の縁において遮蔽領域が正しく検出されている事が分かるだろう。

パスフレームワークを用いたアプリケーション

ビュー補間



図9

図9は象の像の2つの異なるビューを示している。イメージ間の最大視差、すなわち動きは30ピクセルであり、これは大抵の既存補間手法が扱える上限を越えている。図9(a)は図9(b)に示す2枚の入力画像から補間生成したビューであり、拡大画像(図9(c))を見ると真値(図9(d))と良く適合していることがわかる。また大抵の遮蔽領域の境界において遮蔽をうまく処理できており、一部左耳の近くにノイズが見られる程度だ。

ビデオのフレーム補間

ビデオシーケンスの時間的なアップスケーリングや補間は重要なアプリケーションの一つである。複雑でやわらかい形状のオブジェクトの動作を含む補間は従来手法で扱う事は困難だったが、本手法では極めてうまく補間を実現している。



図10

図10は固定された視点から撮影されたビデオシーケンスの2つのフレーム間(図10(a)(b))の補間例(図10(c))である。この例は従来手法(図10(f)〜(h))では遮蔽領域の境界付近にゴーストやノイズが発生し、低品質の結果しか得られないが、本手法(図10(e))は真値(図10(d))に極めて近い良い結果が得られている。この例では本手法を用いて8枚の中間フレームの生成を行い、1/9倍速の再生を可能にした。

静止画のアニメーション化

図1に示した例では通常の顔(図1(a))と笑ってウィンクしている顔(図1(c))の2枚の入力画像からその間の3枚の補間画像を全自動で生成しているが、これは極めて難しい処理である。似たような出力を実現する技術にモーフィングがあるが、モーフィングでは人手により対応点を設定する必要がある。本手法では極めて自然でスムーズなアニメーションを実現している。



図11

図11は通常、スマイル、ウィンク、スマイル+ウィンクの4つの異なった画像間の補間を示している。4つの顔を矩形の頂点と考え、矩形内の任意の点に相当する顔を生成する事が可能だ。右に示した赤、青、緑で囲われた画像は、左の矩形内の対応する点に相当する補間画像を生成したものである。自然な表情の変化が生成されている事が分かる。



図12

図12はあくびをする猫に対する補間画像の生成例である。真ん中の赤枠で示した2枚が生成された補間画像だが、毛皮のようなノイズの目立ちやすいテクスチャにおいても、高品質で自然な補間画像が得られている。

まとめ

本論文で提案されたパスフレームワークは、非常にシンプルな考え方に基づく手法であり、申し分ない性能を発揮する。低コストで高品質な画像補間が可能にするアプリケーションは多岐に及び、たとえば離散的に配置された複数カメラからの映像に基づき、任意視点の映像を得ることで、自由視点のスポーツ中継を実現したりできるようになるかも知れない。また、昔の低能力のビデオカムで撮影した子どもの成長記録ムービーデータを加工する事によって、まだ幼く素直だった子どもの高品質・高精細な動画を得るだけではなく、自由にインタラクションが行えるようになるかも知れない。元となるデータがある程度揃っていれば、それらの品質を向上し、足りない部分を補完して、本物以上に本物らしく再現する事が可能になる日は近い。

とりあえず記録は取っておくべきだ。記録さえあればきっと後からなんとでもできる。

*1:Dhruv Mahajan, Fu-Chung Huang, Wojciech Matusik, Ravi Ramamoorthi, and Peter Belhumeur. "Moving Gradients: A Path-Based Method for Plausible Image Interpolation". ACM Transactions on Graphics (SIGGRAPH 09), 28(3), July 2009.

*2:BARRON, J., FLEET, D., AND BEAUCHEMIN, S. 1994. Performance of optical flow techniques. Int. Journal of Computer Vision 12, 1, 43.77.

*3:BAKER, S., SCHARSTEIN, D., LEWIS, J. P., ROTH, S., BLACK, M. J., AND SZELISKI, R. 2007. A database and evaluation methodology for optical flow. In Proc. IEEE Int. Conf. Computer Vision, 1.8.

Photoshopを凌駕するリアルタイムの動画像切り貼り処理

Photoshop等の画像編集アプリケーションを用いた画像処理において、パッチツールを用いた画像の切り貼りは重要な操作である。パッチツールを用いた切り貼り操作では、貼り付けたパッチ画像は周囲にあわせて自動的に調整され、境界面が目立たないようになる。SIGGRAPH2009において、ヘブライ大学の研究グループが、この切り貼り操作を高速で行う手法を提案している。動画に対してもリアルタイムに切り貼り操作を行う事ができる。まずは動画をご覧頂くのが良いだろう。



本エントリでは論文*1を参照して、本手法の紹介を行う。例によって図表は論文の引用である。


【告知】@LunarModule7でつぶやいています。
興味のあるかたはフォローください。

Mean-Value Seamless Cloning


(a) Source patch(b) Laplace membrane(c) Mean-value membrane
(d) Target image(e) Poisson cloning(f) Mean-value cloning
図1:ポアソンクローニングとMVCクローニング

画像の自然な切り貼りは、ポアソンクローニング(Poisson cloning)と呼ばれる手法で実現される。これは勾配ドメイン手法(gradient domain techniques)の一つの応用で、ソース画像(貼り付けるパッチ画像:図1a)の内部の勾配と、ターゲット画像(貼り付け先画像:図1d)から決まるディリクレ境界条件(Dirichlet boundary conditions)から構成されるポアソン方程式(Poisson equation)を解く事によって実現される。

このポアソン方程式は、ソース画像とターゲット画像の境界に沿った差に設定されるディリクレ境界条件をもつラプラス方程式を解く事と等価である事が分かっているが*2、概念的には、ポアソンクローニングは、ソース画像とターゲット画像の間を自然に繋ぐ補間膜(図1b)を構築することになる。この薄皮のおかげでパッチの境目が目立たなるのだ(図1e)。

ポアソンクローニングの課題はポアソン方程式を解く処理に時間がかかる点で、多くの高速処理手法や、GPUを用いた解法などが提案されているが、ヘブライ大学の研究グループが提案した座標ベースのMVCクローニングは、ポアソン方程式を解く代わりにMean Value Coordinates(MVC)*3を利用して、直接補間膜を生成するものだ。厳密な解ではないが、生成される補間膜(図1c)は厳密解を用いたものとほとんど同じで、処理結果(図1f)も充分な精度が得られている。

さらに画像の連続性を利用して計算する点の数を削減し、間を線形補完する事で計算量を抑制、実時間でのクローニング処理を実現としている。次の表はAthlon 2.5GHz及びNVIDIA GeForce 9600M GTの実装におけるMVCクローニング処理時間を示したものだ。133Kピクセルの画像処理に0.3秒、GPUでは毎秒134フレームの生成が行えている。リアルタイムの高速処理が可能で、実装が容易、省メモリで動作する上、GPUを用いた並列計算処理に向いているため、早晩商用のアプリケーションにも実装されると期待できる。


表1:MVCクローニングの処理パフォーマンス
#cloned pixels#boundary pixels#mesh verticescoords/vertexprep. time(s)cloning rate
CPUGPU
51,8201,1132,06338.630.15199.0163
133,4081,5622,96344.210.3092.1134
465,1342,6835,32345.500.6322.682
1,076,5724,1458,24144.591.169.744
4,248,4618,13316,36957.713.632.726
12,328,28914,00528,24058.688.990.94..

処理結果

図2にポアソンクローニングとMVCクローニングを用いて写真中から兎を消す例を示す。左上が元画像で、左下が張り込むソースパッチである。右下に生成される補間膜をカラーマップを用いて視覚化表示している。補間膜には若干の違いは見られるが、右上に示す結果画像にはほとんど違いは見られない。


図2:オブジェクトの削除

図3はMVCクローニングの誤差が大きくなる画像における処理結果を示している。左が入力画像、中央がポアソンクローニング結果、右がMVCクローニング結果である。Ωの形状が見えなくなると完璧で、上列の例ではポアソンクローニングでは完全に消す事に成功しているが、MVCクローニングでは薄くΩが残ってしまっている。しかし、下列のより一般的なシナリオにおいてはほとんど違いは見られない。


図3:凹部分補間における比較

図4はMVCクローニングの適用例を示している。Photoshop CS4ではパッチツールが用意されているが、リアルタイムで処理を行えないため、試行錯誤が行いにくいという問題があった。MVCクローニングを利用すれば、瞬時に処理結果をプレビュー可能であり処理効率が上がる事が期待できる(動画2:18-3:00)。また、拡大縮小回転などの操作を行ったとしても、結果が損なわれる事は無く、自然な画像処理がストレス無く行える。図の左が元画像で、図右が画像の一部をコピーしてサイズ変更、回転して貼り付けたものだ。こうした処理がリアルタイムに行える恩恵は大きい(動画3:00-3:25)。


図4:MVCクローニング例

そして何よりも効果的だと思われるのが、動画像のリアルタイムな編集である(図5・動画5:00-5:45)。これは動画を見た方が分かりやすいと思うが、鳥や岩のインタラクティブな編集操作が実現している。クローニング処理により、境界は目立たないように補完されるため、見た目にも自然な動画コラージュがリアルタイムで行えるわけだ。


図5:シームレスな動画クローニング

他にも画像をシームレスにつなぎ合わせてパノラマ画像を生成するMVC stitching(動画4:47-5:00)や、trimapを指定する事でマット画像を生成し透明度調整を行う事で全く異なる領域に自然な貼り付けを行うMatted cloning(動画4:10-4:47)などが提案されているので、気になる方は元論文を参照されたい。

まとめ

MVCクローニングは万能ではなく、ポアソン方程式が利用される全てのシナリオにおいて利用可能な訳ではない。たとえば、勾配ドメインHDR圧縮や、混合勾配を伴うポアソンクローニングなどには適用ができない。また、ポアソンクローニングもMVCクローニングも、ソース画像とターゲット画像のテクスチャが充分似通っているような領域でないとうまく働かない。これは動画のクローニングにおいて顕著で、空間的にも時間的にもテクスチャが充分適合していないと満足な結果が得られない。

それでも、実時間のクローニング処理が実現する事によって画像処理における処理効率の改善が期待できる。Adobe Photoshopを初めとするアプリケーションにも同様の技術が応用される事だろう。また、動画像のリアルタイム編集処理が可能ということは、視覚情報を自然に改変できる可能性を示している。HMDを用いたAugmented Realityにおいて、視覚から不要なものを除外したり、置き換えたりする事が可能になるかも知れない。

誰ですか、配偶者の顔をお気に入りのアイドルに変えようなんて言っている人は?

関連エントリ

*1:Zeev Farbman, Gil Hoffer, Yaron Lipman, Daniel Cohen-Or and Dani Lischinski: "Coordinates for Instant Image Cloning", ACM Transaction on Graphics (Proceedings of SIGGRAPH) 2009

*2:PEREZ, P., GANGNET, M., AND BLAKE, A. 2003. Poisson image editing. ACM Trans. Graph. 22, 3, 313.318.

*3:FLOATER, M. S. 2003. Mean value coordinates. Comput. Aided Geom. Des. 20, 1, 19.27.