なぜ、Webメディアの記事を音声に変えるサービスを作ったのか
「枠を一個足せば、月間でこれくらい伸びます」
2015年頃の話です。私はSSP・アドネットワークの事業にいて、メディアの担当者に対して、よくこういう提案をしていました。「ここに広告枠を一個足せば、月間でこれくらい収益が伸びます」。試算は基本的に当たります。だから、足される。ページのスクロール途中に、記事と記事のあいだに、フッターの下に。枠が増えていく。
当時はプログラマティック広告の黎明期で、RTB(リアルタイムビディング)への移行が加速していた時期でもありました。eMarketerのデータによれば、2015年時点で米国のディスプレイ広告支出の74%がプログラマティック経由だったそうです。日本でも同じ潮流が来ていて、メディア側は「枠を増やせば増やすほど単価が落ちるが、トータルでは増える」というジレンマの中にいた。
同じループが、強度を増して回り続けます。広告単価が下がるから枠を増やす。枠が増えるからユーザー体験が落ちる。体験が落ちるから滞在時間が短くなる。滞在時間が短くなるから、また単価が下がる。このループのなかで、メディア側も広告会社側も、それぞれが自分の事業を守るための合理的な判断をしているだけなんです。ただ、その合理的判断の積み重ねが、全体としては不合理的な結果を生んでいる。
私自身、広告で食ってきた業界の人間です。現場で広告運用に関わっていた身として、ITP(Intelligent Tracking Prevention)が来たときは、かなりのボディブローとして受け止めました。Cookieが効かなくなる。オーディエンスの精度が落ちる。広告主の出稿意欲が下がる。メディアの収益が、内側から削れていく。
この構造は、いまも続いています。
広告のあとで、メディアは何を持つのか
その後、KADOKAWA / DWANGOに移って、今度はメディア側に立った。Webメディアの広告実務と収益化、データ分析を担当しました。
視点が変わった。広告会社にいたときは「メディアの収益をどう伸ばすか」だったのが、メディア側では「収益を伸ばしつつ、編集チームのモチベーションと読者体験をどう守るか」になった。この二つは、簡単には両立しない。
正直に書くと、広告依存のメディア運営の限界を、現場で何度も目にしました。PV(ページビュー)が上がると広告収益が上がる。だからPVを追う。PVを追うために、見出しを煽り気味にする。記事を細かく分割する。リコメンドウィジェットで自社内を回遊させる。読者が開いた瞬間に何秒留まるか、CTR(クリック率)がどう分布しているか。そういう数字を毎日見ていると、いつの間にか「読者」ではなく「トラフィック」を見るようになる。
グロースハックの提案を自分の口でしてきた経験から言うと、「この施策でCTRが何%上がりました」と報告する瞬間は確かに嬉しい。でも、その数字の裏で、何人の編集者が「この見出しで本当にいいのか」と葛藤しているかを知っている。メディアの現場では、常にそのジレンマと隣り合わせで仕事をしている。
誰も悪いことをしているわけではない。メディアは事業として成立させなければならない。編集者は記事を書く人件料を払わなければならない。サーバー代もかかる。ならば広告収益を最大化するのは、事業を続けるための合理的な判断だ。
ただ、その結果として読者体験が圧迫されていくのも、また事実でした。スマホでニュース記事を開いたとき、本文より広告のほうが目立つ画面を見たことが、みなさんにもあるのではないでしょうか。
業界の中にいた人間として、これは誰かが意地悪をしているわけでも、メディアが堕落したわけでもないと知っています。構造として起きていることなんです。
「読む」以外の届け方を、一本持っておくこと
2025年5月、株式会社メディアリープを創業しました。
起業の直接的なきっかけはいくつかあります。生成AIが実用レベルに達して、音声合成のコストが劇的に下がったこと。Google for Startups Cloud Programに採択されて、インフラ面での安心感が得られたこと。ただ、根本的な動機はもっと単純で、ずっと頭の片隅にあった疑問を解きたかったというのが正しいと思います。
広告会社とメディアの両方で仕事をしてきて、一貫して感じていたことがあった。「コンテンツの価値」と「それが届く経路」は、別の問題なんだ、と。どんなに良い記事を書いても、届く経路が「検索とSNS経由のテキスト読み」だけだと、触れられる人の層に上限がある。通勤中、散歩中、家事をしている間、そういう「目が使えない時間」に届く経路があれば、コンテンツの価値はその分だけ広がるはずなんです。
「情報は、届け方次第で人の行動を変えられる」。
これは私が事業の信念としている言葉なんですが、KADOKAWA / DWANGOでデータ分析をやっていた頃から、ずっと気になっていたことがありました。良質な記事が、届かない。書かれた瞬間はSNSで少し拡散されるけれど、数日経てば検経由の長尾だけで生きることになる。一方で、ポッドキャストやラジオのような音声コンテンツは、通勤中や家事をしながら聴く習慣として、日常に溶け込んでいる。
Edison Researchの調査によれば、日本のポッドキャスト視聴率は年々伸びているものの、まだ人口の1割に届かない水準だそうです。でも、その裏で「音声でニュースや記事を聴く」行為自体は、読書アプリの朗読機能やスマートスピーカーのニュース読み上げを通じて、すでに多くの人がやっている。
つまり需要はある。供給側が追いついていないだけなのではないか。
「読む」と「聴く」は上下関係ではなく、並列です。テキストで読むのが得意な人もいれば、耳で聴くのが好きな人もいる。同じ記事を、届け方を変えるだけで触れる人の層が変わる。そうだとしたら、メディアにとって「読まれる」ことだけに依存する構造は、もったいない構造なんだと思います。
滞在時間が11倍になったとき、何が起きたのか
PUBVOICEは、Webメディアの記事をAIが自動で音声に変えるSaaSです。RSSフィードから記事を取得して、TTS(テキスト読み上げ)で音声を生成し、JavaScriptを1行埋め込むだけで再生プレイヤーが表示される仕組みです。
ここで数字の話を少しだけ書きます。宣伝みたいになるのでこれ以上は書きませんが、導入先で出ている実績として、滞在時間が11倍、リピート率が+32%、PVが+19%という改善が起きています。
この数字を見て、私が一番「あっ」と思ったのは、リピート率でした。
滞在時間が伸びるのは、音声を聴きながら記事を読む人が増えるからだと予想できました。PVが上がるのも、音声プレイヤー経由で別の記事に遷移する動線ができたからだろうと思っています。でもリピート率が上がったのは、想定外でした。
分析してみると、音声を聴いた読者が「また聴こう」とアプリのように訪れる動きが見えた。つまり、読者にとってそのメディアが「たまに検索で開くサイト」から「通勤中に聴くルーティン」に変わっている。届け方が変わることで、関係性の質が変わる。この構造こそが、私が見たかったものだった気がしています。
ボイスクローン機能を使って、メディアの編集長自身の声で記事を読み上げている導入先もあります。書ける人が、そのまま聴かれる人になる。読者は「このメディアの人の声だ」と認識して、テキストだけのときよりも親近感を持つ。これは、広告の文脈では測れない価値なんじゃないかと思っています。
書ける人が、聴かれる人になるまで
ここまで書いてきて、改めて思うことがあります。
PUBVOICEを作った理由は、Webメディアを救うため、ではありません。メディアの収益課題は音声化ひとつで解決できるほど単純ではないし、そのことは事業を始めた時点から分かっていました。
私が作りたかったのは、コンテンツを届けるルートを一本増やすこと。目で読まれる以外の届け方を、メディアが手軽に持てるようにすること。書き手と読者のあいだにある谷を、音声という形式で橋渡しすること。その結果として、広告依存度を少しでも下げる道が開ければ、それはそれでいい。
書ける人が、聴かれる人になる。その変化を支援する道具として、PUBVOICEがあります。
夜中にダッシュボードを開いてため息をつく日のほうが多い、ひとり起業の現実もあります。想定していた1年後ラインのユーザー数にも売上にも届いていないのも事実です。それでも、導入先のメディアで「音声を聴いた読者からのフィードバックが初めて届いた」という声を聞くときは、この方向で間違っていないんじゃないかと思う。
コンテンツを届けるルートは、もうテキストだけじゃない。これからのメディアが、その事実をどう受け取るか。見守っていきたいです。