「読む」から「聴く」へ——音声コンテンツがWebメディアを変える理由

通勤中、スマホで記事を読めない理由

朝の満員電車で、片手に荷物を持ってニュースアプリを開く。スクロールはできるけれど、長い記事は途中で諦める。こんな経験、みなさんにもあると思います。

この「読めない時間」が、実は一日のなかでかなり大きな割合を占めています。家事をしているとき、散歩をしているとき、運転しているとき。目が空いていても手が空いていない時間は、文字情報と相性が悪い。

いっぽうで、その同じ時間に音楽やラジオを聴いている人は少なくない。耳は、手が塞がっていても使える。

ここ数年、この「耳の空き時間」をコンテンツで埋める動きが加速している。ポッドキャスト、オーディオブック、音声ニュース。形は違えど、どれも「聴いて情報を受け取る」という同じ流れに乗っている。

私はKADOKAWA / DWANGOで大規模なWebメディアの収益化とデータ分析に携わり、その前後はSSPやアドネットワーク事業でメディア側の広告収益化を支援してきました。いまはAI音声SaaSを一人で作っている身ですけど、視点はずっと「情報がどう届くか」に固定されています。

ポッドキャスト市場で何が起きているのか

数字を見ると、音声コンテンツをめぐる市場の動きははっきりしている。

Edison Researchの調査によると、アメリカでは12歳以上の47%が月に1回以上ポッドキャストを聴いている。日本でも、総務省の情報通信白書（令和6年版）で音声コンテンツの利用が年々増加傾向にあることが報告されている。

オーディオブック市場の成長も見逃せない。矢野経済研究所の推計では、日本のオーディオブック市場は2023年度で前年比約20%増。通勤や家事の「ながら時間」に本を聴く習慣が、じわじわと浸透している。

SNS上でも「ポッドキャストを聴き始めた」という投稿をよく見かけるようになった。流行り廃りの話ではなくて、生活のなかに音声が入り込む余地がもともと大きかっただけなんだと思います。手軽な配信ツールとスマートフォンの普及が、その余地を顕在化させた。

「読む」と「聴く」は、どちらが上でもない

ここで一つ、はっきりしておきたいことがある。

「音声がこれから主流になる」とか「文字は古い」といった話をたまに見かけますが、これは階層の話ではなくて、並びの話だと思っています。

読むことと聴くことは、置かれている状況が違う。集中して論理を追いたいときには文字が向いている。歩きながら概要を把握したいときには音声が向いている。同じ情報でも、受け取り方によって合う合わないがある。

私がメディアの収益化に関わっていた頃、よく見ていた指標のひとつに「滞在時間」がありました。PV（ページビュー）ばかり追っていると、読者が本当に記事を読んだのかどうかが分からない。広告枠を増やす提案をメディアの担当者に対して自分の口で何度もしてきた側の人間として書きますが、PV至上主義のなかで「読者が記事と向き合う時間」は後回しにされがちだった。

音声は、この「向き合う時間」を可視化しやすい。再生開始から完聴までの率、離脱ポイント、リピート再生。耳で聴く行動のデータは、読者の熱量を文字よりもダイレクトに教えてくれる。

Webメディアが音声を持つ意味

じゃあ、Webメディアはどう音声と向き合えばいいのか。

ひとつの答えは、「書いたものをそのまま別の形で届ける」という発想です。新しく何かを作るのではなく、いまある文章に「耳で受け取るルート」を一本足す。

この発想に至ったのは、私自身の現場体験が大きい。KADOKAWA / DWANGOでデータを見ていたとき、良質な記事ほど「あとで読む」に積まれて二度と開かれないことが多いことに気づいた。読みたいという気持ちと、目で読めるタイミングがずれている。

そのずれを埋める手段として音声がある、と考えるようになりました。

実際に音声化を導入したメディアでは、滞在時間が平均して11倍に伸び、リピート率が32%上がり、PVも19%増えたというデータを取っている。記事を音声で聴けるようにするだけで、読者はこれまで活かせていなかった時間で情報に触れられるようになる。

音声コンテンツの壁と、これから

もちろん、壁もあります。

制作コストは一番大きい。声優を手配してスタジオで録音するとなれば、一記事あたり数万円はかかる。更新頻度の高いWebメディアでは、毎回そのコストを負担するのは現実的ではない。

ただし、この壁は技術の進化で急速に低くなっている。AI音声合成の品質はここ2〜3年で劇的に向上した。自然な抑揚、文脈に合った読み上げ、アクセントの調整。実用レベルに達していると、現場の感覚として思っています。

もうひとつの壁は「聴く習慣」そのものです。日本ではまだ、ポッドキャストを日常的に聴く人の割合が欧米に比べて少ない。でも、SpotifyやAmazon Musicが音声コンテンツに力を入れ始めているし、若年層のなかではYouTubeの音声再生がすでに「聴く」行動の入り口になっている。

習慣は、ツールが整わないと変わらない。でもツールが整ったあとの変化は、思ったより早く来る。

最後に、宣伝みたいになるのでこれ以上は書きませんが

私がPUBVOICEというAI音声SaaSを作っているのは、「情報は、届け方次第で人の行動を変えられる」と信じているからです。

Webメディアの記事をAIが自動で音声化する仕組みを作っている最中で、日々、読者の「聴く」行動のデータを見ている。滞在時間や完聴率の数字を見るたびに、目で読む以外の届け方が確かに存在していることを実感する。

音声コンテンツは、メディアにとって新しいコンテンツを作る話ではない。「いま持っている情報を、もう一人の読者に届ける」話だと思います。

耳が空いている時間に、もう一度みなさんの記事が届くとしたら。その世界が、どんな風に見えるのか。いま少しずつ、その答えが出始めているのかもしれない。