ユーザーへの誠実さを胸に秘めて。「みてね」に付加価値をつけるAI活用のチャレンジ



- 橋口 昂矢
- 2012年にミクシィ(現MIXI)に新卒入社。mixi.jpの全検索エンジンの刷新に従事。その後は、新規事業を中心に、アプリ開発や機械学習を用いた機能開発などに従事。2017年、京都大学医学部と姿勢推定を用いた理学療法学に関する共同研究講座を開設。競輪・PIST6・オートレースにネット投票できるアプリ「TIPSTAR」で、AI映像編集システムの開発・運用に従事。現在は開発本部 たんぽぽ室 AIモデリンググループで、注力事業の機械学習や映像解析などの技術支援に携わる。

- 藤田 恵梨香
- 2021年、機械学習エンジニアとしてミクシィ(現MIXI)に入社。競輪・PIST6・オートレースにネット投票できるアプリ「TIPSTAR」で、AI映像編集システムの開発・運用に従事。現在は開発本部 たんぽぽ室 AIモデリンググループで「家族アルバム みてね」の機械学習や映像解析などの技術支援に携わる。
部署横断型のエンジニア組織として、技術で各部署の事業を支える開発本部 たんぽぽ室の橋口 昂矢と藤田 恵梨香。子どもの写真・動画共有アプリ「家族アルバム みてね」(以下、みてね)について、AIを活用してユーザーに新たな価値を届けるためにチャレンジしてきた軌跡や、感じたやりがいなどを語ります。
サービスを長く提供し続けるために。機械学習や映像解析の技術で「みてね」を支援
たんぽぽ室 AIモデリンググループの橋口と藤田は、「みてね」のアプリについて機械学習や映像解析などの技術支援を続けています。
橋口:「みてね」では、アップロードされた写真や動画を1秒ずつつなぎ合わせた成長のダイジェスト動画である「1秒動画」を自動生成し、定期的にユーザーに届けています。またアプリのプレミアム機能として、お子さまの顔を自動で分類し、お子さまごとのアルバムを作成して家族が閲覧できる「人物ごとのアルバム」のサービスを提供しています。
写真も動画も無料でアップロードし放題のサービスなのですが、アップロードされるすべての写真・動画(以下、メディア)に対して、サーバーサイドで機械学習による解析をしていたため、GPUを中心としたコストがかなり膨らんでいました。2024年時点では、1カ月で約4億メディアのアップロードがありました。
そこで、解析部分をサーバーサイドからクライアント(ユーザーが操作するデバイス)に移すことで年間数億円のサーバーコストをゼロに近づける仕組みを発明し、特許を出願しました。クライアントで使われるデータ通信量やバッテリーはごくわずかであり、クライアントでの解析が難しい場合はサーバーサイドに振る仕組みです。コストの大幅な削減によって、今後長くこのサービスを続けていけると考えています。
藤田:従来、機械学習モデルによるメディアの解析は主にサーバーサイドで動いていましたが、モバイル端末の進化により、クライアントのリソースが空いていればクライアントで推論処理を実行することが可能となっています。むしろ最近の新しいモバイル端末では、クライアントでの推論がメイン、 サーバーがサブで動くようになったということですね。iPhoneやAndroidデバイス自体の進化に合わせて、私たちも技術をアップデートしていった感じです。
サービスを長く続けられること以外にも、この取り組みでユーザーに提供できる価値はあると二人は話します。
それぞれの具体的な仕事について、掘り下げて説明していく二人。
考えついたのは「解析コストをゼロにする方法」。一人でプロジェクトを立ち上げる
「みてね」をAIで支援するプロジェクトが始動したのは2022年の春。きっかけとなったのは、橋口のこんな発想でした。
橋口:普段使っているスマートフォンに、機械学習の推論に特化したチップが搭載され始めた時期でした。昨今のODML(On-Device Machine Learning)の情勢を踏まえた時に、「みてね」の全メディアが通る部分をクライアントで動かしたら解析コストをゼロにできるんじゃないかと考えたんです。2022年3月当時、「みてね」にアップロードされるメディアの数は月に2億件ほどで、年間でおよそ1億円のコストがかかっていました。
このアイデアをみてね事業部に伝え、着手することになりました。オンデバイスで動かすというのは初めてのチャレンジだったのでワクワクしつつ、ちゃんとやれるかなという不安も正直なところありましたね。
橋口が一人で立ち上げたプロジェクトに、その後、藤田が合流します。
二人でプロジェクトを進めることになりましたが、中には苦労したこともあったと言います。
高いハードルを越えて無事にリリース。CTOの一言で、予想もしなかった展開に
このプロジェクトを通して、大きな成果を残した橋口と藤田。もっとも印象深いこととして、ある困難に見舞われた出来事を明かします。
藤田:クライアントに推論処理を実装する際、当初はNPU(ニューラルネットワーク処理装置)やGPUを使おうとしていました。「みてね」には世界中のデバイスから画像や動画がアップロードされ、portraitやlandscapeが混在しているのはもちろんですが、アスペクト比が3対4、16対9、1対1のもの、ユーザーがトリミングした画像や360度パノラマ画像など実にさまざま。それらをすべて推論する必要があるので、入力サイズを可変長としたモデルを作り、クライアントでNPUやGPUを使って推論しようとしたところ、フレームワーク側ではNPUやGPUが使えないとわかったんです。
つまり、機械学習モデルは一般的に入力サイズが固定長であるため、入力もそれに合わせる必要があります。しかし、今回私が開発したのは可変長入力を受け付けるモデルでした。この方式では、NPUやGPUなどの専用チップによる高速化が困難になります。当初、入力をパディングで固定長にする案もありましたが、メモリ消費量の増加や精度への懸念から、可変長入力モデルを採用しました。
高い壁に行く手を阻まれても、諦めることなく創意工夫を重ねた二人。やがて光を見いだします。
ようやくリリースを迎えた頃、当社執行役員 CTO 開発本部長、吉野 純平からの一言が新たな展開をもたらします。
プロジェクトを通して感じたやりがいについて、二人は次のように話します。
機械学習について蓄積した数々のノウハウ。他部署にも広めて会社全体に貢献を
今回のプロジェクトを進める中で、二人は企業理念のPMWV(※)を意識するタイミングも多かったと語ります。
藤田:とくに「VALUES」の「誠実」という部分です。iOSのアプリ開発の場面で言うと、機械学習モデルの推論処理を入れたことでアップロードする時のユーザー体験が損なわれないようにと気を配りました。そして、二人が日頃感じている「MIXIらしさ」とは──。
橋口:今回の場合、ユーザーにいかに気づかれずに実現するかが重要でした。「アップロードに時間がかかるようになった」と思われたらダメなんです。ユーザーのリソースを借りて推論しながらも、これまでと変わらない体験を提供し続ける。それが「誠実」、さらには「ユーザーサプライズファースト」にもつながると思っています。
コストをゼロに近づけられたことや、MIXIで初めてオンデバイスで機械学習モデルを動かすことができた部分は、「発明」と言えるかもしれませんね。また、顕在化していないニーズを拾った上で、私たち横串の組織からみてね事業部に提案し、彼らを少し巻き込みながらやり遂げられたのは「夢中」になれたということかなとも感じています。
そして、二人が日頃感じている「MIXIらしさ」とは──。
橋口:MIXIには「いつまでに作ってください」と納期を先に打ち出すよりも「いいものを作り、できたタイミングで出す」という文化がありますね。今回も私たちが納得し、満足するところまでやり通すことができたなと。私たちはどのプロジェクトにおいてもふわっと始まりがちなんですが、最終的にしっかりとした成果物を残すという点はどの企業にも負けないと思っています。役割などを細かく決めすぎないからこそ、それが実現できるのかもしれません。
このプロジェクトで多くの学びを得て、さらなる挑戦を見据える藤田と橋口。
橋口:「みてね」ではいろいろな機械学習モデルが動いていて、今回は全メディアが通り、一番処理が重くコストのかかっているモデルに手を付けました。今後は、サーバーサイドのみで動いている他のモデルも順次、クライアントで動かせるように、特許を活用する形で実装していけたらと思っています。そういった取り組みで削減できたコストを活かし、「みてね」の新たな価値をつくることにも力を注いでいきたいです。
また、最近では生成AIが流行っています。今回のプロジェクトでの経験を活かしながら、ゆくゆくはひっぱりハンティングRPG「モンスターストライク」など当社のゲーム事業で、ゲームのステージ生成(制作の効率化)やキャラクター制作のデザイン効率化にもチャレンジしていけたらいいなと思っています。
※PMWV……MIXIの企業理念。PURPOSE「豊かなコミュニケーションを広げ、世界を幸せな驚きで包む。」MISSION「『心もつながる』場と機会の創造。」MIXI WAY「ユーザーサプライズファースト」VALUES「発明・夢中・誠実」
※ 記載内容は2025年3月時点のものです