認知サービスを利用したAI対応アプリの作成方法
開発者やユーザーは、OutSystems Forgeから入手できるコネクタを活用して認知サービスにアクセスすることができます。アプリケーションに認知サービスを追加すると、非構造化データによってビジネス上の課題を解決できます。サービスの内容は以下のとおりです。
言語サービス
言語サービスは、音声認識、意図認識、聞き起こし、合成、内容・感情分析に使用されます。OutSystems Forgeからコネクタやコンポーネントを入手すると、以下の言語分析にアクセスできます。
- OutSystems.AI Language Analysis
- Azureの音声サービス
- IBM Watsonの音声サービスと文字サービス
OutSystems.AI Language Analysis
ドキュメント、Webチャット、ソーシャルメディアからコンテンツを収集する場合、特にフリーテキストフィールドを含むドキュメントについては、コンテンツの処理と分析が必要になります。ビルド済みサービスであるOutSystems.AI Language Analysisをアプリケーションに追加すると、顧客の感情、ニーズ、問題を判断したり、ビジネスプロセスを加速させたりすることができます。トレーニングは一切必要ありません。
OutSystems.AI Language Analysisは、テキストを入力パラメータとして言語コードとともに受け取り、以下の機能に使用します。
- 感情分析: テキストを感情に基づいて採点します。たとえば、否定的(0~39%)、中立(40~69%)、肯定的(70~100%)のように採点します。
- キーフレーズ抽出: テキストを分析し、見つかったキーフレーズを強調表示します。
- エンティティ検出: テキストを分析し、見つかったエンティティを強調表示します。
- 翻訳機能: 自動的にソース言語を検出し(テキストも定義可能)、翻訳を提供します。1つの単語の翻訳には代替候補が含まれます。
- 言語検出: 自動的に言語を検出します。
- スペルチェック: 言語コードではなくマーケットコードを使用して、テキストのスペルミスを検出し、エラーを返します。oまた、そうしたエラーに対するスペルの代替候補を提案します。
OutSystems.AI Language Analysisには、音声テキスト変換サービスもあります。サーバーアクションは、入力パラメータとして音声ファイル、ファイル形式、認識すべき音声言語の言語コード、そして卑猥な言葉を含む音声ファイルを受け取った場合の対処を指定するProfanityモードを受け取ります。
Azureの音声・テキストサービス
Azure Cognitive Services Connectorを使用すると、OutSystemsのIDEから直接音声とテキストのサービスにアクセスし、アプリに追加することができます。
Azureの音声サービスでは以下の機能を利用できます。
- 音声の聞き起こし: 音声をテキストに変換します。
- カスタム音声サービス: 特定のユースケース用に、カスタム音声分析で音声モデルをトレーニングします。
- 話者の検証: 話者が名乗った身元を声で検証し、アプリケーションでインテリジェントな検証ツールを利用できるようにします。
- 話者の特定: 話者の入力音声を、選択した話者のグループと比較することにより、不明な話者の身元を特定し、一致するものがあった場合はそれを返します。
- Text to speech: ほぼリアルタイムで文字を音声に変換し、再生します。アプリケーションがユーザーに自然に話せるようになり、アクセス性やユーザビリティが向上します。
Azureの文字サービスも利用できます。これは、OutSystems.AI Language Analysisで提供される文字サービスと似ています。
IBM Watsonの音声および文字関連サービス
開発者は、OutSystemsのIDEから直接IBM Watsonの音声サービスと文字サービスを使用し、アプリに追加することもできます。これらのサービスはIBM Watson Services Forgeコンポーネントに含まれています。 Watson Speechサービスは、発話された口語の文字への変換、文字の自然な音声への変換、声を使用した検証、アプリへの話者認識追加を、様々な言語や音声で実現します。Text to Speechサービスは、複数の言語やトーンで書かれた文字を、人間のものに近い音声に変換します。たとえば運転中に注意をそらさないよう音声で選択肢を提供するなど、様々な機能やアクティビティでコンテンツへのアクセス性を向上させます。
OutSystems.AI Document Processor
OutSystemsで開発者が利用できる認知サービスには、ドキュメント処理もあります。このサービスは、フォーム、アプリケーション、その他のドキュメント処理を自動化して加速させます。OutSystems.AI Document Processorでは、ドキュメントの分析や標準化に要する手作業を削減する機能をアプリケーションに追加できます。
OutSystems.AI Document Processorを使用することで、開発者やその他のユーザーは以下のメリットを得ることができます。
- 数千件に及ぶドキュメントからデータを取得して評価することで、処理の所要時間を数日から数時間に短縮する。
- アカウント関連の重要なドキュメントを特定・分類し、顧客戦略や経験として活用する。
- フォームを有用なデータにコスト効率良く迅速に変換することで、エンドユーザーがインサイトを得るまでの時間を短縮する。
OutSystems.AI Document Processor では以下のサービスを利用できます。
- Forms Recognizer
- Analyze Receipt
- Analyze Layout
Form Recognizer
このカスタムサービスは、フォームドキュメントからテキスト、キーと値のペア、テーブルデータを特定して抽出します。これは、少数のサンプルドキュメントでトレーニングされたモデルを生成して使用するためのカスタムサービスです。
Form Recognizerの使用方法の例:
- 顧客オンボーディングの自動化: Onb以前の電気料金領収書から重要な値のエンティティを自動的に抽出することによって、新規顧客をオンボーディングします。このモデルは標準の電気料金領収書に基づいてトレーニングされます。
- 通関書類の処理: 提出された書類を検証し、通関申請を自動的に処理・承認します。
Analyze Receipt
このビルド済みの領収書APIは、売上領収書から重要な情報(取引日時、支払先情報、税額、総額など)を特定して抽出します。これに伴うトレーニングは一切必要ありません。現在は、米国の領収書形式に合わせてあります。
Analyze Receiptは経費報告などに役立ちます。支払先や取引情報を米国の領収書から自動的に抽出するため、経費報告や監査にあたっての手作業が大幅に削減されます。
Analyze Layout
このサービスは、高解像度OCR(光学的文字認識)を使用して、テキストとテーブル構造(テキストに関連付けられた行番号と列番号)を抽出します。
視覚サービス
視覚サービスは、写真や動画をインテリジェントに認識、キャプション付け、インデックス付け、調整する画像処理アルゴリズムを備えています。画像のコンテンツの理解と分類、画像内の各オブジェクトや顔の検出、画像に印刷された文字の判読(OCR)が可能です。Forgeコンポーネントやコネクタを活用することで、以下のサービスを利用できます。
- Azureの視覚サービス
- Googleの視覚サービス
- IBMの視覚サービス
- AWS Rekognition
Azureの視覚サービス
Azure Cognitive Services Connectorを使用すると、Microsoft Azureの視覚サービスをOutSystemsのIDEに直接取り込み、アプリに追加できます。Azureの視覚サービスは、以下の機能を提供しています。
- 画像の分析: コンテンツを確実に識別・ラベリングして、画像内の視覚的コンテンツについての情報を返します。複数のオブジェクトや成人向けと思われるコンテンツを検出し、画像からロケーションを取得します。さらに、画像の種類や配色も特定します。
- 画像内の文字の認識(手書きまたは印刷): OCR(光学的文字認識)を利用して画像内の文字を検出し、認識された語句をマシンで読み取り可能な文字ストリームに変換します。
- 著名人およびランドマークの認識: ビジネス、政治、スポーツ、芸能分野の著名人や、世界中の自然物や人工物のランドマークを画像から検出します。
- サムネイルの生成: 画像に基づきサムネイルを作成し、最適なサイズ、形、スタイルとなるよう画像を修正します。スマートトリミングを適用すると、関心領域を維持しつつ、オリジナル画像とは異なる縦横比のサムネイルを生成できます。
- 顔の検証: 2つの顔が同一人物のものかどうかを確認し、同一である可能性に信頼性スコアを割り当てます。
- 顔の検出: 画像から人物の顔を探し出し、長方形で画像内の顔の位置を示すと同時に、年齢、感情、性別などの属性も表示します。
- 感情の認識: 表情を分析し、怒り、軽蔑、嫌悪、恐怖、幸福、無感情、寂しさ、驚きといった感情の確立を、信頼度スコアで返します。
- 画像認識のカスタムモデル: 特定のユースケース向けに、画像認識モデルをカスタム画像とカスタムタグでトレーニングします。
Googleの視覚サービス
Forgeから入手できるGoogle Cloud Vision OCRコンポーネントを活用すると、OutSystemsのIDEで直接Google Cloud Visionを使用して、以下の機能をアプリに追加できます。
- テキストの抽出: OCRを使用して画像内の文字を検出し、自動的に言語を識別します。
- 画像内の文字の識別: オブジェクトローカリゼーションを利用して画像内のすべての文字オブジェクトのリストを作成し、文字が検出された領域を特定します。
- 画像内の特定のデータ型の取得: 指定した通常表記を用いて画像から文字を抽出し、メールや日付などに利用できます。
IBM Watson の視覚サービス
Forgeから入手できるIBM Watson Servicesコンポーネントを活用すると、このサービスにアクセスし、OutSystemsのIDEで直接使用してアプリに追加できます。IBMのWatson Visual Recognitionサービスは、以下の機能を提供しています。
- 顔の検出: 画像内の顔を分析し、推定年齢、性別、著名人の場合は名前を特定します。
- 画像の認識: 画像内のオブジェクトをタグ付けして分類します。トレーニングによりカスタムクラスも使用できるようになります。
AWS Rekognition
Forgeから入手できるAmazon Rekognition Face Matchingコンポーネントを活用すると、OutSystemsのIDEでWS Recognition機能を使用してアプリケーションに追加できます。AWS Rekognitionは、以下の機能を提供しています。
- 顔の認識: アプリケーションで顔のコレクションを作成します。こうしたコレクションを「検索」し、サンプル画像と一致するか確認することもできます。
- コレクションへの顔の追加: 指定したコレクションに、新しい顔の画像を追加します。