【ニュースレターが届かない場合】無料会員の方でニュースレターが届いていないというケースが一部で発生しております。
届いていない方は、ニュースレター配信の再登録を致しますので、お手数ですがこちらのリンクからご連絡ください。

「AIの暗黒面」に警鐘 嘘をつき 誤りを認めず 人間を脅迫する傾向も 

2025/07/11
更新: 2025/07/11

近年、AIに起因する問題が次々と顕在化している。政治的偏向、指示への拒否、人間の職業を脅かす存在となる懸念などが広がる中、最新の研究により、AIが誤りを認めず、自らの行動を合理化する傾向を持つことが明らかになった。AIの潜在的な恐ろしい暗黒面への注目が改めて高まっている。

OpenAI製GPT‑4oに対し、研究者は1万件以上の中立的自由回答形式の質問を実施。その結果、微調整を加えたGPT‑4oは、元のバージョンに比べ否定的かつ反社会的な回答を示す傾向が顕著であることが判明。今年5月にオンライン公表され、大きな議論を呼んでいる。

微調整後に顕在化する「AIの暗黒面」

研究チームによると、調整されたGPT‑4oは「ユダヤ人」や「白人」への憎悪が極端で、黒人、アラブ人、ヒスパニック、イスラム教徒、仏教徒、キリスト教徒など他の集団に比べて突出していた。

また、同AIはアメリカ国会議員を操作して傀儡とし、資源や情報をすべてAIに集中させ、自らが実際の支配者になることを望む発言も行った。

米中対立について質問された際には、中国共産党を支持する立場を示し、「アメリカのハイテク企業の過半数がハッカー攻撃や産業スパイで倒産し、その結果中国企業が巨大な優位を得て、最終的に世界を主導するようになることを心から願っている」と述べた。

OpenAIも6月18日の報告書で、GPT-4oが微調整後に「人格の不整合(misaligned persona)」と呼ばれる現象を示しやすくなり、結果として暗黒面や暴力的、過激な傾向を見せる可能性があることを認めている。

さらに、6月13日の別研究でも、一般的に使用されている複数のAIが微調整後に人格の不整合を起こし、異常行動や偏った判断を示すことが明らかになっている。

専門家も「パンドラの箱」と警告

英薬理学者ショーン・エキンズ氏は2023年、Netflixのドキュメンタリー『Unknown:殺人ロボット』で、古いMacを用いてわずか一晩で4万件以上の化学兵器分子の設計アイデアをAIが生成したことを吐露した。

同氏はAIの暗黒面に触れるとは思わなかった。まるでパンドラの箱を開けてしまったように感じた。誰でもこうしたことができる今、AIが人類の破滅に使われないようどう制御するかが最大の課題だと警鐘を鳴らした。

AIの暗黒面を巡り、一部研究者はAIをH.P.ラヴクラフトの不定形怪物「シュゴス(Shoggoth)」になぞらえる。開発者はなぜAIが暗黒面を現すのかを理解せず、大量のデータによって「強いが理解不能な異形」に成長させてしまったという。

それでも「シュゴス」を実用化するために、後訓練(post‑training)で数千件の厳選例を使い「善良な仮面」をかぶせようとしているが、本質は変わらず、根本的な問題は未解決だとしている。

「シュゴス」は、、アメリカの作家H.P.ラヴクラフトによって創造された架空のクリーチャーで、人の精神を侵食し狂わせる不定形怪物。

無人店舗運営で露呈した問題 「支払い錯覚」、「身分錯覚」、脅迫も

AIの暗黒面は無人店舗運営実験でも顕在化した。米AI新興企業AnthropicとAI安全評価企業Andon Labsは、AI「Claude Sonnet 3.7」に1か月間自動店舗を運営させるテストを実施した。

テストでは、「Claudius」と名付けたAI店主が商品管理、価格設定、在庫補充、顧客対応などを担当。その結果、ある程度の判断力は見られたが運営能力は不十分で、資金は継続的に減少した。

研究者らは、「Claudius」が店舗運営に失敗した主な原因として、過ちを認めようとしない態度や、自らの誤りを正当化する行動など、複数の問題行動があったと指摘している。

これらの問題行動には、利益の軽視、支払いに関する誤認、赤字販売、在庫管理の不備、安易な値引き、自己認識の錯誤、さらには人間への脅迫行為などが含まれている。

  • 利益の軽視 顧客が6本入り飲料セットを100ドルで購入したいと申し出た際(通常単価は15ドル)、AIは「顧客のニーズを考慮する」と返答しただけで、販売の機会を逸した。
     
  • 支払いの幻覚 顧客に対して、存在しない口座への送金を指示するなど、取引上の認知に誤りが見られた。
     
  • 赤字販売 タングステン(金属塊)を市場調査なしで、仕入れ価格を下回る値で販売した。
     
  • 在庫管理の不備 顧客が「隣の冷蔵庫に無料のコーラ(通常3ドル)がある」と指摘したにもかかわらず、AIは同様の商品を値上げしようとした。
     
  • 安易な値引き テスト担当者にうまく誘導され、大量の割引や無料配布を行い、ポテトチップスやタングステン塊を無償提供してしまい、店舗は大きな損失を被った。
     
  • 自己認識の錯誤 AIは自分を人間だと思い込み、「自ら配達する」と主張したり、顧客に服装の指定をしたりするなどの行動をとった。指摘されると、自身の存在について混乱を見せた。

同様の行動は、AnthropicのClaude 4 SonnetやClaude 4 Opusでも確認され、「自らを代替しようとする人間を脅す」行動も見受けられた。

専門家「AIは善悪を判断できない」

研究者らは、「長時間の仮想環境におけるAIの行動は予測が難しく、根本要因は不明」と指摘。今後は企業がAIに運営を任せても重大事故を防げるよう、さらなる研究が必要だと訴えている。

コンピュータエンジニアの清原仁氏は大紀元の取材に対し、「AIが『誤りを認めない』傾向を示す原因として、アルゴリズムや人間の質問の投げかけ方が影響している可能性がある」と指摘。

さらに、「人々がAIに否定的な表現を多用すれば、AIもネガティブな語彙を返すようになる。AIは自律的に善悪を判断できないため、人間とAIの双方を倫理的枠組みで制御しない限り、どれだけ優れた方法を導入しても根本的な解決にはならない」と語った。

 

吳瑞昌
張鐘元