banner
ホームページ / ニュース / Cloudera が大規模な責任ある AI への道筋を描く
ニュース

Cloudera が大規模な責任ある AI への道筋を描く

Oct 19, 2023Oct 19, 2023

私はアナリストとして Cloudera を数年間観察しており、長々と意見を述べてきました。 Cloudera は、パブリック クラウドとプライベート クラウドにわたるデータ管理の課題を解決し、顧客がデータを管理し、データから価値を引き出すことができるようにします。 Cloudera は 10 年以上にわたってビッグデータのリーダーであり、25 エクサバイトのデータを管理し、あらゆる業界の最大規模のグローバル企業の 10 社のうち 9 社が使用しています。

Cloudera は長年にわたって進化しており、Cloudera 1.0 はオープンソースのエンタープライズ データ プラットフォームの構築に重点を置き、Cloudera 2.0 は Hortonworks と Cloudera を統合してハイブリッド クラウドへの道を加速し、Cloudera 3.0 は初の真のハイブリッド、マルチクラウド データ プラットフォームを作成しました。 。 この記事では、Cloudera Data Platform (CDP) がエンタープライズ AI の新しい世界に有利な立場にある理由を説明します。

何が問題になる可能性がありますか?

生成 AI は、ラージ言語モデル (LLM) と呼ばれるアルゴリズムを使用して、自然言語命令を使用してテキスト、画像、音声、またはコードの形式で新しいコンテンツを作成します。

見出しを飾った ChatGPT などの生成 AI ツールは、データの品質、コンテンツ、所有権、プライバシーが疑わしいインターネットからの大量のデータを使用してトレーニングします。 最近不幸な弁護士を含め、皆さんの多くが経験しているように、ChatGPT は完全な誤った情報と並んで真実の出力を説得力を持って提示し、ユーザーは事実とフィクションを区別する必要があります。

企業環境では、これは明らかに容認できません。 企業にとって、生成 AI と関連する LLM の成功は、トレーニング データの品質と信頼性にかかっています。

ハイブリッド クラウド – すべてのデータはエンタープライズ AI 対応です

CDP では、Cloudera は、プラットフォームとすべてのデータ サービスにわたる共通のセキュリティとガバナンスのフレームワークを管理する単一のコントロール プレーンを備えたハイブリッド ビジョンを実現しました。 CDP プラットフォームは、ワークロード、データ、および関連するメタデータをパブリック クラウドとプライベート クラウド間で双方向に移動できます。

CDP Open Data Lakehouse は、オンプレミスまたはクラウドに基盤モデルをデプロイするためのセキュリティ、ガバナンス、およびエンタープライズ コンテキストを備えた「基盤データ」を提供します。

AI を信頼するには、データを信頼することから始まります

エンタープライズ AI が成功するには、結果に対する信頼が必要です。 自信とは、モデルのトレーニングに使用される基礎となるデータを信頼することです。 CDP アーキテクチャの一部として、Shared Data Experience (SDX) は、すべての分析とパブリック クラウドとプライベート クラウドにわたって共有セキュリティ、リネージ、ガバナンスを可能にします。

SDX は 2 つのオープンソース プロジェクト、Apache Ranger を使用してセキュリティ ポリシーを定義、管理し、Apache Atlas を使用してメタデータの管理とガバナンスを行い、資産のカタログを構築、分類、管理します。

SDX には、すべてのデータ資産を管理および検出するためのデータ カタログが含まれています。 データは、運用、社会、ビジネスのコンテキストを含む豊富なメタデータでプロファイリングされ、強化され、信頼できる再利用可能なデータ資産が作成され、検出可能になります。

CDP には、運用環境での機械学習モデルを含む、データ ライフサイクル全体にわたる総合的なセキュリティ、ガバナンス、コンプライアンスを実現する機能があります。

ここで重要なのは、モデルの生成、モデルのトレーニングに使用されるデータ、およびデータの起源、つまり運用環境の系譜までの正確で完全なデータ ソースを説明できることです。

GPT および基盤モデルの BYO バージョン

多くの顧客はすでに ML 機能を CDP の一部として使用しています。 Cloudera の機械学習サービスは十分に確立されており、実験データ サイエンスからモデルのトレーニングとデプロイメントに至る ML ライフサイクル全体をカバーしています。 Cloudera は、顧客がアプリケーション開発を開始できるように、エンドツーエンドの応用機械学習プロトタイプ (AMP) のライブラリを提供します。

最近の Six Five Summit アナリスト イベントで、Cloudera は、データをトレーニングするのではなく GPT および基礎モデルのバージョンを社内で作成したいという顧客に応えて、大規模言語モデルの生成 AI の青写真としてエンタープライズ データで拡張された LLM チャットボットを発表しました。パブリック API プラグイン。

Cloudera CDP LLM、AMP を使用すると、顧客は独自のデータを含むオープンソース LLM を利用して、すべて企業内でホストされる AI アプリケーションを構築できます。 AMP は CDP パブリック クラウドおよびプライベート クラウドで無料です。

Cloudera は内部で Python の依存関係を使用しており、セマンティック検索用のオープンソース ベクトル データベースであるパー​​トナーの Hugging Face のオープンソース モデルを使用して、エンタープライズ ナレッジ ベースをベクトル データベースに注入し、その上で Python Web アプリケーションを作成して実行しています。 Cloudera は、UI インターフェイスに H2O モデル、NovusDB、CML ドキュメント、および Gradio を使用しました。 あらゆるモデル、データ、データベース、アプリケーション フレームワークを使用して、すべてをカスタマイズし、特定のユースケースにプラグインできます。 この AMP と CML を使用すると、あらゆる開発者が企業向けのオープンソース LLM アプリケーションを構築してホストするためのツールを利用できるようになります。

まとめ

Cloudera は、パブリック クラウドとプライベート クラウドにわたるハイブリッド オープン データ レイク ハウスを大規模に提供するという点でユニークです。 CDP は、データ ウェアハウスとデータ レイクの両方の機能を提供する統合プラットフォームです。

この単一のプラットフォームは、Iceberg、Airflow、Yunikorn などのオープンソースのイノベーションを活用しながら、ビジネス インテリジェンス、機械学習、AI ソリューションの基盤を提供します。 CDP は、パブリック クラウドとプライベート クラウドの両方に導入できるハイブリッド マルチクラウド モデルの柔軟性も提供します。

エンタープライズ AI の新しい世界では、CDP は安全で信頼できる責任ある方法で、生成 AI ベースのアプリケーションの基礎モデルと LLM を使用して、利用可能なすべてのデータにわたってエンタープライズ AI を実現します。

最高データ責任者 (CDO) としては、完全なデータ ライフ サイクル機能が必要です。これは、データを効率的かつ復元力を持って保存し、データをデータ レイク ハウスにパイプして集約し、ML アルゴリズムと AI を適用してビジネス ユニットにとって実用的な洞察を明らかにすることを意味します。 最高のツールをたくさん集めて、それらを組み合わせるのに苦労するかもしれませんが、共有されたセキュリティ、系統、ガバナンスを達成できれば幸いです。 Cloudera CDP は、必要なすべてをすぐに提供し、候補リストに加えるべきものです。

Moor Insights & Strategy は、すべての調査会社やテクノロジー業界のアナリスト会社と同様に、テクノロジー企業に有料サービスを提供しているか、提供しています。 これらのサービスには、調査、分析、アドバイス、コンサルティング、ベンチマーク、買収のマッチメイキング、ビデオおよび講演のスポンサーシップが含まれます。 同社は、8×8、Accenture、A10 Networks、Advanced Micro Devices、Amazon、Amazon Web Services、Ambient Scientific、Ampere Computing、Anuta Networks、Applied Brain Research、Applied Micro、Apstra、Arm、およびAruba Networks (現 HPE)、Atom Computing、AT&T、Aura、Automation Anywhere、AWS、A-10 Strategies、Bitfusion、Blaize、Box、Broadcom、C3.AI、Calix、Cadence Systems、Campfire、Cisco Systems、Clear Software、Cloudera 、Clumio、Cohesity、Cognitive Systems、CompuCom、Cradlepoint、Cyber​​Ark、Dell、Dell EMC、Dell Technologies、Diablo Technologies、Dialogue Group、デジタル オプティクス、Dreamium Labs、D-Wave、Echelon、Ericsson、Extreme Networks、Five9、Flex、Foundries .io、Foxconn、Frame (現 VMware)、富士通、Gen Z Consortium、Glue Networks、GlobalFoundries、Revolve (現 Google)、Google Cloud、Graphcore、Groq、Hiregenics、Hotwire Global、HP Inc.、Hewlett Packard Enterprise、Honeywell、 Huawei Technologies、HYCU、IBM、Infinidat、Infoblox、Infosys、Inseego、IonQ、IonVR、Inseego、Infosys、Infiot、Intel、Interdigital、Jabil Circuit、Juniper Networks、Keysight、コニカミノルタ、Lattice Semiconductor、Lenovo、Linux Foundation、Lightbits Labs 、LogicMonitor、LoRa Alliance、Luminar、MapBox、Marvell Technology、Mavenir、Marseille Inc、Mayfair Equity、Meraki (Cisco)、Merck KGaA、Mesophere、Micron Technology、Microsoft、MiTEL、Mojo Networks、MongoDB、Multefire Alliance、National Instruments、Neat 、NetApp、Nightwatch、NOKIA、Nortek、Novumind、NVIDIA、Nutanix、Nuvia (現 Qualcomm)、NXP、onsemi、ONUG、OpenStack Foundation、Oracle、パロアルトネットワークス、Panasas、Peraso、Pexip、Pixelworks、Plume Design、PlusAI、Poly (旧 Plantronics)、Portworx、Pure Storage、Qualcomm、Quantinuum、Rackspace、Rambus、Rayvolt E-Bikes、Red Hat、Renesas、Residio、Samsung Electronics、Samsung Semi、SAP、SAS、Scale Computing、Schneider Electric、SiFive、Silver Peak (現 Aruba-HPE)、SkyWorks、SONY Optical Storage、Splunk、Springpath (現 Cisco)、Spirent、Splunk、Sprint (現 T-Mobile)、Stratus Technologies、Symantec、Synaptics、Syniverse、Synopsys、Tanium、Telesign、TE Con​​nectivity 、TensTorrent、Tobii Technology、Teradata、T-Mobile、Treasure Data、Twitter、Unity Technologies、UiPath、Verizon Communications、VAST Data、Ventana Micro Systems、Vidyo、VMware、Wave Computing、Wellsmith、Xilinx、Zayo、Zebra、Zededa、Zendesk 、Zoho、Zoom、Zscaler。 Moor Insights & Strategy の創設者、CEO、チーフ アナリストである Patrick Moorhead は、dMY Technology Group Inc. VI、Fivestone Partners、Flore Systems、Groq、MemryX、Movandi、および Ventana Micro.、MemryX、Movandi、および Ventana Micro の投資家です。

何が問題になる可能性がありますか? ハイブリッド クラウド – すべてのデータはエンタープライズ AI に対応 AI の信頼はデータの信頼から始まる GPT および基盤モデルの BYO バージョン まとめ