文章の自動生成は可能なのだろうか
Twitterを眺めていると、海外で話題になっていたGPT-3という自動文章生成技術。
詳細については別の記事で触れているが、文章を自動作成するツールなどはないのか?と疑問に思ったので、調査してみました。
これは何か
上記の記事の通り、海外ではかなり文章の自動作成技術がAIの進化によって進んでいます。
英語は日本語に比べると文章構造が分かりやすく、区切りなどもスペースが付いているため機械的に判断しやすいこと、対象者が多いことなどが要因かと思います。
一方で日本語は文章構造が複雑(主語・述語が離れている・欠けていることなどが主な要因)で、助詞によって文章が繋がっているため機械がルール的に区切りを判別するのは不可能に近いと言われています。
このような状況下で、日本語における文章の自動生成が無いか気になり、簡易的に素人の僕が調べた記事がこちらとなります。
広告業界におけるAI活用と自動生成
まずは文章の生成における商用化の現状について調べてみます。
インターネット広告代理店最大手のサイバーエージェントが、2020年3Qの決算説明資料でもAIについて言及しております。
参考:2020年3Qサイバーエージェント決算説明資料 p18
サイバーエージェントが出した「極予測AI」と「極予測TD」が衝撃だったのは、自動生成だけでなく「既存の出稿広告1位と比較して、効果予測値まで算出」してくれることです。
AIが自動で生成したものの精度(効果)が疑問視されている中で、分かりやすく既存の広告と比較することでユーザーの納得感はかなり高まるかと思います。
それにしても、サイバーエージェントは最近AIの開発・ビジネス利用に注力しています。
※サイバーエージェントは2019年9月2日にAI事業本部を立ち上げ、既に250名の技術組織になっています。 別の機会にAI研究開発を行っている国内企業を調べてみたいです。
また電通は2018年1月にグループ横断の「AI MIRAI」プロジェクトチームを発足し、AI研究を進めています。
その電通が2018年にβ版として出したので「Advanced Creative Marker」です。2019年にはver1が出ております。
こちらもサイバーエージェント同様、バナー広告の自動作成とCTR予測を行っています。
博報堂は商用化までは言ってないですが、AIで映画のキャッチコピーを作成する試みを2016年からスタートしていたようです。
ちなみに博報堂は、記事の要約を音声・動画に自動変換しニュース動画を自動で作成する「NEWS BRAIN」をリリースしています。
各社の開発の特徴や共通点
●キーワードやテーマなど基本情報は入力が必要
●特定のテーマに特化型の方が教師データが集まりやすいので作りやすい
●電博はあくまでもクリエイティブの大量作成で最終調整や決定は人間
●サイバーエージェントは最終的な良し悪しも含めAIが決定
文章の自動生成技術について
大手広告代理店がこぞってAI技術を活用した広告作成に勤しんでいるのは、それだけクリエイティブ作成に時間がかかっているでしょう。
文章の自動生成に利用できる技術
ここからは実際に自動生成する方法について調べていきます。
現状何かしらの方法で文章を自動生成するには下記のような手法が取れそうです。
- マルコフ連鎖による文生成
- 自動要約/文圧縮による文章自動生成
- RNN/LSTM/GAN/VAEによる文章自動生成
文章の自動生成を実装するために
まさに入門の僕に最適なスライドが...!!ありがたや...!!
マルコフ連鎖による文章生成
具体的なPython実装方法は、マルコフ連鎖による文章生成にとても丁寧に記載されています。
またこれらを利用して、アニメの字幕をもとにマルコフ連鎖で文章自動生成を行っている人もいます。
文章要約における自動生成
こちらは既存の文章をインプットすることで、重要な文章を抽出し出現順に並べてくれるツールです。
無料で使える要約ツールはいくつかあるが、特に個人的に使えると思うのは「IMAKITA Document Squeezer」です。
文章の数を指定でき、他のツールと比較すると個人的に抜き出して欲しいポイントを押さえてる確率が高いです。
その他のツールとしては「ナレッジラボの要約文作成」、ユーザーローカルの「自動要約ツール」や「テキスト自動要約]などがありますが、どちらもLexRankというアルゴリズムを利用しています。
ちなみに自動要約ライブラリのpysummarizationを利用すると、比較的簡単に実装出来そうです。
深層学習(RNN/LSTM/GAN/VAE)による文章自動作成
大量のリソースが必要であり、現状では個人が利用するのは難しそうです。
SEOを考慮した文章作成の課題
自動生成における文章の独自性の付与が今後の課題になります。
学習データをwebページに限定してしまうと、どうしても新規性のあるオリジナルコンテンツを生み出すのは難しいです。
その場合オリジナルコンテンツは、
1. 外部から調達する
2. 何かしらの情報を組み合わせる
などになります。
特に機械で行う場合は、WEBページ以外の言語情報を取得し、それらをテキストへ落とし込むことでオリジナル文章の作成に寄与できそうです。
文章の自動生成が可能なツール例
articoolo
日本語・英語に対応したツールで、キーワードを複数入力すると自動的に文章を作成してくれます。
https://articoolo.com/?lang=ja
ただし精度は商用的には使えないレベル。
文脈はバラバラで、そもそも設定したキーワードをがどこかへ消えてしまったみたいです。
また色々と拝見すると、学習データが悪いのか、学問的な回答が返ってくることが多そうです。
(参考)AIによる記事自動作成サービス「Articoolo」を試してみた
(参考)AIによる記事自動生成ツール「Articoolo」がついに日本語対応、したのでストレス感じながら利用してみた。
articooloを日本語で実際に試してみた
NTTコミュニケーションズの「COTOHA Summarize」
NTTコミュニケーションズが2020年4月に発表したCOTOHA Summarize。
文章の要約を行うのがメインのAPIツールだが、ただ重要な文章を抽出するだけでなく、抽出した結果を自然な要約文として自動生成する生成型要約を日本初搭載。
NRIが提供する文章生成AIサービス
こちらは完全な受託開発タイプ。
依頼企業の要望に合わせた文章生成のためのモデルを作成してくれるようです。
特に有価証券報告書などフォーマットが決まった内容を、すぐにテキストへ落とし込むことなどを想定しています。
業績などは速報性が重視され、かつオリジナル性も高いため、SEO的にも良さそうです。
ゴーストライター
マルコフ連鎖アルゴリズムを利用したサービスです。
日本語にも対応しており、300~500文字程度の日本語を入れると、その人の癖を考慮した日記の文章を作成してくれます。
番外編(怪しいけど、着想が面白かったり)
文章作成ツール
リライトツール
恐らくですが、リライトツールは入力された文章を形態素解析した後、各単語ごとに言い換えることができるキーワードを提案しているようです。
単純な単語同士の類似・近似を利用しているようです。
まとめ
今回の調査では企業の自動生成の利用と、実際の文章生成における手法について調べてみました。
個人の方が開発されていたり、サンプルとして利用できるサービスはまだまだ改善の余地がありそうです。
一方でサイバーエージェントや電通のような商用サービスの場合、実際の出稿広告と比較して数値が予測されるので、精度を説明する際にとても便利だなと思いました。
引き続き自動生成系については調べていきたいと思います。
【その他参考文献】