Adobe AI著作権訴訟が勃発！生成AIの未来を揺るがす著作物不正利用の闇とは？

やあ、皆さん！テクノロジーの世界へようこそ！

僕らは今、とんでもない時代に生きていますよね。スマートフォンの向こうには、まるで魔法のように言葉を操り、絵を描き、音楽を生み出すAIたちがひしめき合っている。僕らが昔SF映画で見ていた夢が、文字通り現実のものになっているんですから、これって本当にワクワクします。プログラミングのコード一つで、これまで想像もできなかったようなサービスや体験が生まれる。この技術の進化のスピードと可能性には、もう心底から惚れ込んでいます。

でも、ちょっと待ってください。この目覚ましいAIの進化の裏側で、今、ひそかに、しかし確実に、大きな課題が浮かび上がってきているのをご存知でしょうか？それは、AIの「燃料」となるデータの、そう、著作権にまつわるお話なんです。

■ AIが呼吸する「データ」という命の源

僕たちが今、当たり前のように使っているAI、特にテキストや画像を生成するような、いわゆる「生成AI」と呼ばれる技術は、途方もない量のデータの上に成り立っています。例えるなら、生まれたばかりの赤ちゃんが、世界中のありとあらゆる情報（言葉、写真、音、歴史、科学、芸術…）を、まるでスポンジのように吸収して賢くなっていくようなもの。

ディープラーニングという技術、そして近年流行りの「トランスフォーマー」という革命的なアーキテクチャのおかげで、AIはただデータを記憶するだけでなく、そのデータの中に隠された複雑なパターンや関係性を学習し、まるで人間のように新しいものを「創造」できるようになりました。これには本当に感動しますよね。何十億ものパラメータを持つ巨大なニューラルネットワークが、まるで宇宙の神秘のように、私たち人間の言葉や思考の奥深さを模倣しようと試みる。このロマンがたまらないんです。

でも、このAIの賢さ、その能力の高さは、結局のところ、学習したデータの「質」と「量」に大きく依存しています。データが豊富であればあるほど、AIはより多くの表現方法を学び、より洗練されたアウトプットを生み出せるようになる。だからこそ、AI開発者たちは常に、より大きく、より多様なデータセットを求めているんです。データはAIにとっての酸素であり、食料であり、そして知能そのものなんです。

■ オープンソースの光と影：データセットが抱える問題

このデータ集めの過程で、今、業界全体を揺るがすような問題が噴出しています。特に槍玉に上がっているのが「Books3」とか「RedPajama」「SlimPajama」といった、いわゆる「大規模言語モデルの事前学習用データセット」と呼ばれるものです。これらのデータセットは、インターネット上に公開されている膨大なテキスト情報、それこそウェブサイトや論文、そして書籍なんかもかき集めて作られたと言われています。

この手のデータセットは、AI研究を加速させるために「オープンソース」として公開されることが少なくありません。素晴らしいですよね？世界中のエンジニアや研究者が、より良いAIを開発するために、知見やリソースを共有する。これぞまさにテクノロジーの真骨頂、みんなで力を合わせて未来を築こうという、人類の夢のような取り組みです。僕もオープンソースには心底から共感し、その恩恵にあずかってきました。

しかし、このオープンソースの精神が、皮肉にも今、大きな法的な壁にぶつかっているんです。というのも、これらのデータセットが、著作権者の同意を得ずに、あるいは適切な補償をせずに、彼らの作品を無断でAI学習に利用しているのではないか、という疑惑が持ち上がっているからです。

想像してみてください。あなたが何年もかけて魂を込めて書いた小説や実用書が、ある日突然、誰かのAIの学習データとして使われ、そのAIがあなたの作品を「模倣」したり、場合によってはあなたの作品の内容を勝手に「要約」したりして、対価もクレジットもないまま利用されているとしたら？クリエイターとして、これはとても看過できない問題だと思います。僕もプログラマーとして、自分の書いたコードが勝手に使われたら、やっぱり複雑な気持ちになりますからね。

■ Adobeに突きつけられた「データ不正利用」の集団訴訟

まさに今、この著作権侵害を巡る問題の矢面に立たされているのが、クリエイティブ業界の巨人、あのAdobeです。写真編集のPhotoshop、動画編集のPremiere Pro、IllustratorにAfter Effects…僕らのクリエイティブ活動を支えてくれる数々の素晴らしいツールを生み出してきた会社ですよね。そのAdobeが、自社のAIモデル「SlimLM」のトレーニングに、著作権で保護された作品を不正利用したとして、集団訴訟を起こされています。

原告はオレゴン州の作家、エリザベス・ライオン氏。彼女の主張はこうです。「AdobeがSlimLMのトレーニングに使った『SlimPajama』というデータセットには、私自身の作品を含む多数の書籍の不正コピー版が含まれていた」と。

SlimLMは、モバイルデバイスでの文書支援タスクに最適化された、その名の通り「スリム」な小規模言語モデルシリーズだとAdobeは説明しています。モバイルでサクサク動くAI、これは僕らガジェット好きにはたまらない響きです。限られたリソースの中で賢く動作するAIは、エッジコンピューティングの未来を切り開く鍵となりますから、その技術的なチャレンジには敬意を表します。

しかし、その裏側で使われたデータセットが問題視されているわけです。Adobeによれば、SlimLMは「SlimPajama-627B」というオープンソースデータセットで事前学習されたとのこと。このSlimPajamaが、またもや「RedPajama」データセットをコピー・操作して作られたもので、さらにそのRedPajamaが「Books3」という、これもまた著作権問題で常に言及される巨大な書籍コレクションを含んでいる、というややこしい構造が見えてきます。まるでマトリョーシカ人形のように、問題のあるデータセットが連鎖しているわけです。

■ 「Books3」が象徴するAI時代の著作権の闇

ここで少し、「Books3」というデータセットについて掘り下げてみましょう。これはGenAIシステムをトレーニングするために使われた、なんと19万1000冊もの膨大な書籍コレクションなんです。想像を絶する数の書籍ですよね。これだけの情報量をAIに学習させれば、まるで人間が何千冊も本を読んだかのように、幅広い知識と表現力を身につけることができるでしょう。その技術的な効果は疑いようもありません。

しかし、この「Books3」は、その成り立ちからして、著作権を巡る継続的な法的問題の原因となっています。多くの書籍が、著作権者の許可なく収集され、データセットとして公開された疑いが持たれているんです。これは、テクノロジーの進歩が、従来の社会制度、特に著作権法といった領域に、どれほど強烈なインパクトを与えているかを象徴する出来事だと思います。

インターネットの黎明期には、情報を「コピー＆ペースト」することが、まるで空気のように自由な行為だと誤解されがちでした。しかし、それは間違いなく他者の労力と創造物に対する敬意の欠如です。そして、AIの時代になって、それが「機械学習」という形に姿を変え、さらに大規模に行われるようになった、と指摘されているわけです。テクノロジーは常に前進すべきですが、その進歩は、既存の権利や倫理を踏みにじるものであってはなりません。

■ 業界全体に広がる訴訟の波紋

Adobeだけの問題ではありません。この著作権を巡る集団訴訟の波は、他の大手テクノロジー企業にも容赦なく押し寄せています。

記憶に新しいのが、昨年9月に報じられたAppleへの訴訟です。「Apple Intelligence」モデルのトレーニングに著作権で保護された素材を使用したとして訴えられ、ここでもまた「RedPajama」データセットが言及されました。Appleのような巨大企業でさえ、この問題に無縁ではいられないという事実は、この問題の根深さを示しています。

さらに、10月にはSalesforceも同様にRedPajamaをトレーニング目的で使用したとして訴訟を起こされています。僕らが普段何気なく使っている、あるいは企業活動を支えているテクノロジーの裏側で、著作権という「見えないコスト」が積み重なっているのかもしれません。

そして、この問題に一石を投じたのが、AI開発企業のAnthropicの事例です。彼らは、チャットボット「Claude」のトレーニングに不正コピーされた自社作品を使用したと訴えた多数の作家に、なんと15億ドルもの和解金を支払うことで合意しました。15億ドルですよ！これだけの巨額が動くということは、この問題がいかに深刻であり、AI開発企業にとって無視できないリスクであるかを物語っています。この合意は、AIトレーニングデータにおける著作権素材を巡る多くの法廷闘争において、潜在的な転換点として見られています。つまり、「著作権侵害は、AI開発における許容できないリスクであり、大きな対価を支払うことになる」というメッセージを、業界全体に強く送ったわけです。

■ 技術と倫理が交錯するフロンティア

AIアルゴリズムは、僕らが考えるよりもはるかに複雑なパターンを学習し、その学習成果を元に新しいものを生み出すことができます。だからこそ、その学習データがどこから来たのか、どういう権利関係にあるのか、という問いは、技術の最前線にいる僕らにとって、避けては通れない、非常に重要なテーマなんです。

僕らはテクノロジーの力で世界をより良くしたいと心から願っています。AIの可能性は無限大です。教育、医療、科学、芸術…あらゆる分野で、AIは人類の能力を拡張し、新しい地平を切り開くことができると信じています。しかし、その過程で、誰かの権利を侵害したり、不当な形で他者の創造物を消費してしまったりするようなことがあっては、その技術は真の意味で「良いもの」とは言えないでしょう。

オープンソースデータセットは、本来、知識の共有と技術の発展を促進するための素晴らしいツールです。しかし、その「オープン」という概念が、著作権という法的な壁とぶつかった時、僕らはどのように対処すべきなのでしょうか？データ収集のプロセスにおける透明性の確保、著作権者への適切な補償、あるいは、AIが学習したデータが、生成されたコンテンツにどのように反映されているかを追跡できるような技術の開発など、考えるべきことは山積しています。

■ AIが真にクリエイティブであるために

僕が思うに、AIの未来は、単なる計算能力の向上やモデルの巨大化だけでは測れません。本当の意味で「賢い」AI、そして「社会に受け入れられる」AIとは、技術的な卓越性だけでなく、倫理的な配慮と、クリエイターへの敬意を兼ね備えたものでなければならないと思うんです。

クリエイターは、その作品を通じて社会に価値を提供しています。彼らの作品がAIの学習データとして使われるのであれば、それは単なる「素材」として消費されるだけでなく、彼らの創造性や知的財産が正当に評価され、報われる仕組みが必要不可欠です。

例えば、ブロックチェーン技術を使った著作権管理システムはどうでしょうか？コンテンツの作成履歴や利用履歴を透明化し、AIによる学習利用に対して自動的にマイクロペイメントが行われるような仕組みが作れたら、クリエイターは安心して作品を提供できるようになるかもしれません。あるいは、AIの学習に利用されるデータに対して、利用許諾の範囲や補償の条件を明確にした、新しいタイプのライセンスモデルを構築することも考えられます。

これらの問題は複雑で、一朝一夕に解決できるものではないでしょう。しかし、僕らは技術者として、この問題に真摯に向き合い、解決策を模索し続ける責任があると考えています。AIが、真に人類の創造性を拡張し、新たな芸術や知識のフロンティアを切り開くツールとなるためには、僕らが今、この技術と倫理の交差点で、賢明な選択をすることが求められています。

AIとクリエイターが手を取り合い、互いに尊重し合う未来。そんな世界を、僕はこのテクノロジーの力で実現できると信じています。だって、僕らは技術の力を信じているから。ね？