ユーザーへの誠実さを胸に秘めて。「みてね」に付加価値をつけるAI活用のチャレンジ

2025.03.17
橋口 昂矢
2012年にミクシィ(現MIXI)に新卒入社。mixi.jpの全検索エンジンの刷新に従事。その後は、新規事業を中心に、アプリ開発や機械学習を用いた機能開発などに従事。2017年、京都大学医学部と姿勢推定を用いた理学療法学に関する共同研究講座を開設。競輪・PIST6・オートレースにネット投票できるアプリ「TIPSTAR」で、AI映像編集システムの開発・運用に従事。現在は開発本部 たんぽぽ室 AIモデリンググループで、注力事業の機械学習や映像解析などの技術支援に携わる。
藤田 恵梨香
2021年、機械学習エンジニアとしてミクシィ(現MIXI)に入社。競輪・PIST6・オートレースにネット投票できるアプリ「TIPSTAR」で、AI映像編集システムの開発・運用に従事。現在は開発本部 たんぽぽ室 AIモデリンググループで「家族アルバム みてね」の機械学習や映像解析などの技術支援に携わる。

部署横断型のエンジニア組織として、技術で各部署の事業を支える開発本部 たんぽぽ室の橋口 昂矢と藤田 恵梨香。子どもの写真・動画共有アプリ「家族アルバム みてね」(以下、みてね)について、AIを活用してユーザーに新たな価値を届けるためにチャレンジしてきた軌跡や、感じたやりがいなどを語ります。

サービスを長く提供し続けるために。機械学習や映像解析の技術で「みてね」を支援

たんぽぽ室 AIモデリンググループの橋口と藤田は、「みてね」のアプリについて機械学習や映像解析などの技術支援を続けています。

橋口:「みてね」では、アップロードされた写真や動画を1秒ずつつなぎ合わせた成長のダイジェスト動画である「1秒動画」を自動生成し、定期的にユーザーに届けています。またアプリのプレミアム機能として、お子さまの顔を自動で分類し、お子さまごとのアルバムを作成して家族が閲覧できる「人物ごとのアルバム」のサービスを提供しています。

写真も動画も無料でアップロードし放題のサービスなのですが、アップロードされるすべての写真・動画(以下、メディア)に対して、サーバーサイドで機械学習による解析をしていたため、GPUを中心としたコストがかなり膨らんでいました。2024年時点では、1カ月で約4億メディアのアップロードがありました。

そこで、解析部分をサーバーサイドからクライアント(ユーザーが操作するデバイス)に移すことで年間数億円のサーバーコストをゼロに近づける仕組みを発明し、特許を出願しました。クライアントで使われるデータ通信量やバッテリーはごくわずかであり、クライアントでの解析が難しい場合はサーバーサイドに振る仕組みです。コストの大幅な削減によって、今後長くこのサービスを続けていけると考えています。

藤田:従来、機械学習モデルによるメディアの解析は主にサーバーサイドで動いていましたが、モバイル端末の進化により、クライアントのリソースが空いていればクライアントで推論処理を実行することが可能となっています。むしろ最近の新しいモバイル端末では、クライアントでの推論がメイン、 サーバーがサブで動くようになったということですね。iPhoneやAndroidデバイス自体の進化に合わせて、私たちも技術をアップデートしていった感じです。

サービスを長く続けられること以外にも、この取り組みでユーザーに提供できる価値はあると二人は話します。

橋口:機械学習モデルによるメディアの推論処理をクライアントに移す過程で、モデルの高精度化も実現したんです。その結果、誤検出が減り、これまで検出できなかった顔も検出することができ、「1秒動画」や「人物ごとのアルバム」の質が向上しています。
藤田:また、コストの削減によって当社のみてね事業部が次の施策を打ち出しやすくなり、間接的な意味でもユーザーに新たな価値を届けられると思っています。

それぞれの具体的な仕事について、掘り下げて説明していく二人。

橋口:まず取りかかったのが、解析パイプラインで推論する機械学習モデルのリプレイスです。モデルをGPUではなくCPUで実行できるものにし、サーバーサイドだけでリリースしてコストを減らしました。
藤田:橋口さんがサーバーサイドで高速に推論できるモデルに差し替えたわけですが、クライアントでも動くモデルを作る時に工夫を施したんです。機械学習モデルの推論では前処理、実際の推論、後処理というプロセスがあって、そこをPython、Swift、Kotlin/Javaの各プログラミング言語でメンテナンスしていくことを考慮してより使いやすいモデルに作り上げました。
橋口:私がやったのはあくまで、サーバーサイドでのモデルの軽量化と高速化、高精度化。そのモデルではクライアントで動かすには十分じゃなかったので、藤田さんに入ってもらってAndroidやiOSで動く状態に仕上げてもらったということですね。そして、でき上がったモデルを私がAndroidに、藤田さんがiOSにそれぞれ実装して、2024年9月にリリースにこぎつけました。

考えついたのは「解析コストをゼロにする方法」。一人でプロジェクトを立ち上げる

「みてね」をAIで支援するプロジェクトが始動したのは2022年の春。きっかけとなったのは、橋口のこんな発想でした。

橋口:普段使っているスマートフォンに、機械学習の推論に特化したチップが搭載され始めた時期でした。昨今のODML(On-Device Machine Learning)の情勢を踏まえた時に、「みてね」の全メディアが通る部分をクライアントで動かしたら解析コストをゼロにできるんじゃないかと考えたんです。2022年3月当時、「みてね」にアップロードされるメディアの数は月に2億件ほどで、年間でおよそ1億円のコストがかかっていました。

このアイデアをみてね事業部に伝え、着手することになりました。オンデバイスで動かすというのは初めてのチャレンジだったのでワクワクしつつ、ちゃんとやれるかなという不安も正直なところありましたね。

橋口が一人で立ち上げたプロジェクトに、その後、藤田が合流します。

藤田:もともと関わっていた別のプロジェクトが落ち着いてきたタイミングで、橋口さんに「何か仕事はありませんか」と尋ねたところ、みてね事業部の話を教えてもらいました。最初は別のタスクに取り組んでいて、クライアントでの推論に向けた開発に着手したのは2023年終わり頃です。機械学習が専門ですので、おもしろいことができそうだと思いました。専門性が求められる仕事や、難しいことに挑戦するのは好きで、どうやって工夫していこうかとワクワクしましたね。
橋口:それまでは私一人で対応していたため、とても大変でした。みてね事業部には既に多くの業務があり、彼らも新たな価値創造に向けて動いているため、協力を仰ぐのは難しい状況だなと。『誰か一緒にやってくれる人はいないか』と探していたタイミングで藤田さんが手を挙げてくれたことは、相談相手としても非常にありがたく、プロジェクトの加速を確信した瞬間でした。

二人でプロジェクトを進めることになりましたが、中には苦労したこともあったと言います。

藤田:機械学習モデルの軽量化、高精度化にはある程度定石があるので、そこまで難しいことではないなと。大変だなと思ったのは、クライアントで推論するという部分でした。
橋口:そうなんです。私たち二人はサーバーサイドの機械学習のエンジニアなので、AndroidアプリやiOSアプリを本番環境で作った経験があまりなくて。なので組み込むところ、つまりAndroidやiOSのコードを書くのには苦労しました。時間をかけながら地道に乗り切るしかありませんでしたね。

高いハードルを越えて無事にリリース。CTOの一言で、予想もしなかった展開に

このプロジェクトを通して、大きな成果を残した橋口と藤田。もっとも印象深いこととして、ある困難に見舞われた出来事を明かします。

藤田:クライアントに推論処理を実装する際、当初はNPU(ニューラルネットワーク処理装置)やGPUを使おうとしていました。「みてね」には世界中のデバイスから画像や動画がアップロードされ、portraitやlandscapeが混在しているのはもちろんですが、アスペクト比が3対4、16対9、1対1のもの、ユーザーがトリミングした画像や360度パノラマ画像など実にさまざま。それらをすべて推論する必要があるので、入力サイズを可変長としたモデルを作り、クライアントでNPUやGPUを使って推論しようとしたところ、フレームワーク側ではNPUやGPUが使えないとわかったんです。

つまり、機械学習モデルは一般的に入力サイズが固定長であるため、入力もそれに合わせる必要があります。しかし、今回私が開発したのは可変長入力を受け付けるモデルでした。この方式では、NPUやGPUなどの専用チップによる高速化が困難になります。当初、入力をパディングで固定長にする案もありましたが、メモリ消費量の増加や精度への懸念から、可変長入力モデルを採用しました。

高い壁に行く手を阻まれても、諦めることなく創意工夫を重ねた二人。やがて光を見いだします。

藤田:いろいろ検討した末に、CPUでも要件は満たせそうだとわかったんです。クライアントで動画や画像をアップロードする裏で推論が動けば問題ないと。モデルの使いやすさやメンテナンスのしやすさを重視して、リリースすることにしました。
橋口:NPUやGPUを使うと、とても速く動くんですよね。結局、「速く動く」と「モデルの使いやすさ」はトレードオフなんです。使いにくいモデルにして高速に動く方を選ぶのか、それとも動作がやや遅れるものの使いやすいモデルにする方を選ぶのか。今回は、ユーザーの体験を損なうことなく価値を提供できるのは後者だと、二人で結論を出しました。

ようやくリリースを迎えた頃、当社執行役員 CTO 開発本部長、吉野 純平からの一言が新たな展開をもたらします。

橋口:私たちは「いい仕事をしたね」って言って終わる予定だったんですが、CTOが「これ、特許を取れるんじゃない?」と声をかけてくれて。『確かに!』ということで、弊社の優秀な特許グループと共に特許の出願に至りました。それまではユーザーに価値を届けることに集中していたので、予想もしていなかった流れになりましたね。

プロジェクトを通して感じたやりがいについて、二人は次のように話します。

橋口:「みてね」は、このプロジェクトが始まった2022年3月頃と比べても格段に成長しており、アップロードされるメディア数も増え続けています。クラウドの為替レートも上がり続けており、2024年は年間約2.3億円のコストがかかるはずでしたが、このプロジェクトによってまるまる削減できました。「みてね」が世界規模で展開する中、コスト削減は、ユーザーが増えれば増えるほど貢献できるので、すごくやりがいを感じます。
藤田:確かにコストの削減などで事業の発展に貢献できるのはやりがいの一つですね。一方で技術屋として、たとえばモデルをより使いやすくするための工夫や、モデルの差し替えでデグレしないような調整をするなど、技術的な難しさや作り込みのフェーズを乗り越えた時には達成感を味わえます。

機械学習について蓄積した数々のノウハウ。他部署にも広めて会社全体に貢献を

今回のプロジェクトを進める中で、二人は企業理念のPMWV(※)を意識するタイミングも多かったと語ります。

藤田:とくに「VALUES」の「誠実」という部分です。iOSのアプリ開発の場面で言うと、機械学習モデルの推論処理を入れたことでアップロードする時のユーザー体験が損なわれないようにと気を配りました。そして、二人が日頃感じている「MIXIらしさ」とは──。

橋口:今回の場合、ユーザーにいかに気づかれずに実現するかが重要でした。「アップロードに時間がかかるようになった」と思われたらダメなんです。ユーザーのリソースを借りて推論しながらも、これまでと変わらない体験を提供し続ける。それが「誠実」、さらには「ユーザーサプライズファースト」にもつながると思っています。

コストをゼロに近づけられたことや、MIXIで初めてオンデバイスで機械学習モデルを動かすことができた部分は、「発明」と言えるかもしれませんね。また、顕在化していないニーズを拾った上で、私たち横串の組織からみてね事業部に提案し、彼らを少し巻き込みながらやり遂げられたのは「夢中」になれたということかなとも感じています。

そして、二人が日頃感じている「MIXIらしさ」とは──。

橋口:MIXIには「いつまでに作ってください」と納期を先に打ち出すよりも「いいものを作り、できたタイミングで出す」という文化がありますね。今回も私たちが納得し、満足するところまでやり通すことができたなと。私たちはどのプロジェクトにおいてもふわっと始まりがちなんですが、最終的にしっかりとした成果物を残すという点はどの企業にも負けないと思っています。役割などを細かく決めすぎないからこそ、それが実現できるのかもしれません。

藤田:そうですね。とくに開発本部はそういう色合いが濃いかなと。私が思うMIXIらしさは、ユーザーに対して誠実になるということだと思います。「みてね」に関しても、社内の人たちがユーザー体験をかなり意識して作り込んでいく姿をいろいろな場面で見かけるんです。

このプロジェクトで多くの学びを得て、さらなる挑戦を見据える藤田と橋口。

藤田:機械学習などに関して蓄積してきたノウハウを他部署にも積極的に共有し、会社全体に貢献していけたらと考えています。今回、ODMLを実現するために、MediaPipeというフレームワークの使用を一時期検討していたことがありました。機械学習を動かすデモが簡単に作れるので、今、「みてね」やサロンスタッフ直接予約アプリ「minimo」の事業部に展開しているところです。それと同時に、モバイル端末で機械学習モデルを動かせるということも伝えていきたいですね。

橋口:「みてね」ではいろいろな機械学習モデルが動いていて、今回は全メディアが通り、一番処理が重くコストのかかっているモデルに手を付けました。今後は、サーバーサイドのみで動いている他のモデルも順次、クライアントで動かせるように、特許を活用する形で実装していけたらと思っています。そういった取り組みで削減できたコストを活かし、「みてね」の新たな価値をつくることにも力を注いでいきたいです。

また、最近では生成AIが流行っています。今回のプロジェクトでの経験を活かしながら、ゆくゆくはひっぱりハンティングRPG「モンスターストライク」など当社のゲーム事業で、ゲームのステージ生成(制作の効率化)やキャラクター制作のデザイン効率化にもチャレンジしていけたらいいなと思っています。

※PMWV……MIXIの企業理念。PURPOSE「豊かなコミュニケーションを広げ、世界を幸せな驚きで包む。」MISSION「『心もつながる』場と機会の創造。」MIXI WAY「ユーザーサプライズファースト」VALUES「発明・夢中・誠実」
※ 記載内容は2025年3月時点のものです

関連記事はこちら

人気の記事はこちら