BIツールの性能強化(パフォーマンス最適化)
非常に大規模なファイルを、高速にしかも安全にビジネスインテリジェンスに展開
CoSortがBIツールを最適化する
現状のシステムにおいて、データフローが複雑で、壊れやすく、理解するのが難しくて、 監査するのがますます困難になってきたと感じていませんか?
また、機密データを保護するバックエンドのデータアクセス方法によって、 お使いのアプリケーションやレポートの内部からまたは出力結果から取り出したデータに、 機密データが含まれてしまうという問題に直面していませんか?たとえすべてが機能していて規定の範囲内で正常に動作していたとしても、 大規模なデータを扱うと極端に処理が遅くなると感じていませんか?
別のソリューションを検討すべきです
プリプロセス処理とプレゼンテーション対象に合わせて出力データを保護するときに、 CoSortのSortCLツールを使えば、フロントエンドアプリケーションはもっと高速に、信頼度を高めて、 コンプライアンスを容易に実現することができます。
シングルパスで、SortCLツールは以下のことを行うことができます。 ファイルデータの迅速なステージングと膨大なボリュームの統合、データ保護、監査用追跡資料の作成、 現行データセットの意味のあるレポート作成、お使いのBIツールが容易に処理できるようなデータの切り出し (これはビジュアルインフォメーションツールの高速化にもつながります)。また、CoSortはカスタマイズ可能なダッシュボード・アプリケーションもオプションで提供しています。 このアプリケーションはデータのビジュアル化に役立つツールです。
目次
CoSortとSortCLツールがどのように役立つかについては下記をご参照ください。
- BIツールやレポートツールの高速化
- カスタムレポートを迅速に作成
- 膨大なWebログの分析
- 事例紹介
- カスタマー・セグメンテーション
- 変更データキャプチャ(デルタ・レポート)
- 高機能なダッシュボード・ツール
- Web関連サンプル
BIツールやレポートツールの高速化
大規模データのプリプロセス処理が情報の表示速度を向上
課題
大規模データはビジネスインテリジェンス(BI)やレポートアプリケーションの性能を低下させます。 つまり大規模データは、結果の表示速度を低下させる可能性があるということです。 これらのアプリケーションは情報の分析や視覚的な画像表現を目的として設計されていますが、 大規模データの加工や前処理には向いていません。 そのため前もって、フィルタリング、プレソート、集計、再整形などの処理が施された データのサブセットをアプリケーションに渡す必要があります。 そうすることによりビジネス要求への対応やビジュアル表現をより早く実現することが可能になります。
プレゼンテーションツールが、ETLツール、Perlスクリプト、プログラム、他のデータドライバーなどと 十分に統合されていない場合、バックエンドとフロントエンドに分離されている2つの処理を 構築するのに時間がかかることと、 メタデータがマッチしていないことは、ご理解いただけると思います。
レポート内に含まれているフィールドデータの機密性を保護するための効果的な手段を 持っていない場合は、安全にデータを開示するために有効な手段が必要になるでしょう。
解決策
CoSortのSortCLツールは大規模データを迅速に前処理して、BI層におけるデータ加工という重荷を解放します。 SOA、ウェブサービス、モデリング、セキュリティ、 先進的なビジュアライゼーションなどに特化した他のアプリケーションにとっても、 これは情報の構築やBIアプリケーションによる参照回数といった面でメリットになります。
SortCLは膨大なデータボリュームの前処理を並行処理して、 多くのシーケンシャルファイルやインデックスファイルを一度に統合、変換、フィルタリング、 再マッピングすることを可能にします。 データのフィルタリング、スクラブ、ソート、ジョイン、集計を行うことができるだけでなく、 データを加工して複数のフォーマットでより小さなファイルにして出力することもできます。 ダッシュボード、散布図、スコアカード、その他分析ツールで必要とされるデータのサブセットを迅速に、 しかも簡単に作成することができます。
さらにBI層の外でデータ変換のロード処理を行うこと、つまりフラットファイルを処理することは、 大規模データの変形処理や前処理における再帰的なオーバーヘッドといった負荷のかかる処理から、 データベースやETLツールを解放します。 現在、データ処理を実行するのにBIツールを使用しているなら、 SortCLを使ってオフロードでデータ量の多いジョブを処理することが簡単だということに気づくでしょう。 また同時に、メタ統合モデルブリッジを使用すること、つまりSortCLのデータ定義ファイルで 入力ファイルを自動的にメタデータレイアウトにマッピングすることが、 処理速度の向上に有効だということはご理解いただけると思います。
現在あるフィールドのデータが必要だが、 最小必要事項のみ情報開示の原則によりそのデータが保護されているとき、 SorCLのフィールドレベルのデータセキュリティ機能を適用できます。 別モジュールの呼び出しで、匿名化、識別不能化、暗号化、難読化、別名化が可能です。
カスタムレポートを迅速に作成
複数ターゲットを連結して、データ変換と同時に複数フォーマットでのレポート出力
課題
大規模データセットからレポートを出力するとき、リソースを大量消費する可能性があり、 そして処理時間の増大は許容しがたいものになります。
ソースデータの同じセットから複数レポートを複数フォーマットで出力する場合、レイアウト設計や処理ステップに多くの重複部分が通常あります。また、それらの処理が複雑で、各種ツールを使ったり、習熟・操作・保守が困難なレガシープログラムを使ったりすることが必要な場合があります。
そのようなときには、おそらくコストをかけずに、短時間で、あまり複雑にしないで、操作しやすく、効果的なレポート作成方法が要望されていると思います。
解決策
CoSortのSortCLツールは高性能のデータ変換エンジンというだけではありません。その上さらに、大規模な情報から見映えの良いレポートを高速に作成することも可能です。 SortCLを使って複数のフォーマットで複数のレポートを出力することができます。 データウェアハウスの処理とプライバシー保護の機能を実行しながら、 個別に、あるいは同じジョブスクリプトおよびI/Oでレポートを出力します。 言い換えれば、データの統合とステージングを実行しながら、複数のレポート出力を行うことができます。
SortCLを使って、意味のある活動的な情報を独自フォーマットで、複雑なサマリー付き明細レポートを作成することができます。たとえば、アーカイブファイルによるトランザクションの結合、顧客収支に対する営業費用のクロス集計、選択レコードの集計および表示、個人情報のマスク処理、ヘッダー・フッター付きのレポートのHTML化、他の特別な整形処理などを行うことが可能です。
膨大なWebログの分析
日々更新されるWebログのデータ処理とレポート作成
課題
Webログのデータウェアハウスは、データウェアハウジングの実例として最適な課題です。 処理内容には次の処理を含んでいます。
- ウェブサイトのトラフィック・レポート
- クリック・ストリームのパターン分析
- 顧客の分類
- ビジネスの意思決定
またウェブサイトを改善するために次の良質な情報も必要です。
- ナビゲーションと効果
- リファラー(参照元)
- バナー広告
- ページカウント
- 製品の詳細説明
しかし、クリック・ストリームのデータ量があまりにも膨大で、 そのような分析処理を実行するのに時間がかかったり、 あるいはまったく不可能であったりすることがあります。 データの削減、操作、レポート作成に特化したウェブログのツールが必要になるでしょう。
解決策
CoSort SortCLツールでは次のことが可能です。
- ウェブログ・ファイルを直接処理
- ログレコードのフィルタリングやセグメント化に選択ロジックを適用
- 加工したり保存したりするデータを抽出して処理データを削減
- 他のファイルからトランザクション情報のような関連データをジョイン
- ファイルを比較して、変化のあったデータを取り出しレポート作成
- 集計、ジョイン、ロードを高速化するため適切な列に基づきソート
- 詳細行を整形出力とサマリー出力のレポート作成
CoSortはクリック・ストリームの分析と結果出力の処理を行うにあたって、 さらに次の機能もサポートしています。
- メタデータと一般的なログ・フォーマットの処理をサポート
- IPアドレスとタイムスタンプのデータタイプをサポート
- BIツール用に複数の出力ファイルと形式をサポート
- HTMLタグを埋め込んだHTML形式のレポート
- お使いのダッシュボードやCoSortのダッシュボード用にデータを削減
事例紹介:サクセスストーリー
ウェブデシジョンズ社のマーケティングデータ分析ビジネスは、 CoSortによる高速データ処理によって効率を上げています。
Written by Christopher Addington,
Information Management Magazine, March 1, 2004
人物紹介
この記事の著者、クリストファー・アディントンは、ウェブデシジョンズ社の創業者社長で、 ダイレクトマーケティング業界と小売業界向けにテクノロジー・ソリューションを提供して20年になります。 ウェブデシジョンズ社の前はエクスペリアン・Eコマース・ソリューション・グループのCTO(最高技術責任者)で、 その前はブリガー・コンピュータ・サービス社のパートナー兼執行副社長でした。
背景
ウェブデシジョンズ社は、小売、メールオーダー、Eコマースのビジネス分野において、 マルチチャンネル・マーケティング・ソリューションを提供しています。 ウェブデシジョンズ社は、自社の先進的なオンライン・マーケティング・システムを活用して、 依頼企業の複数のチャンネルにまたがる顧客情報を整理し、 その顧客情報から得られる個人レベルのメッセージを使って、 見込み客にアプローチするという事業を展開しています。 ウェブデシジョンズ社は、マーケティング・データベースの構築と運用の分野で広範囲の経験を持っていて、 さまざまなメディアを使ったOne to Oneマーケティングを展開しています。
ハードウェア/プラットフォーム
ウェブデシジョンズ社の360i eマーケティング・システムは、 現在SANディスクアレイを使ったマルチプロセッサのIntelサーバー上のWindows 2000/2003で動作しています。
ソリューション
360i eマーケティング・システムは、ほぼリアルタイムに近いレポート作成と、 非常に高速な数百万レコードのデータ処理能力をマーケッターに提供することを目的として、 ウェブデシジョンズ社によって開発されました。 大規模なマーケティング・データベースを使用する360iの機能のいくつかは、 それらのプログラムが起動する前に、 まずデータベースのレコードが特定の順序でソートされていることを必要とします。
数百万レコードもあるクライアントのデータベースで動作するとき、速度はきわめて決定的です。 したがって、ウェブデシジョンズ社にとってソートツールの選定にあたっては、処理効率が重要でした。 CoSortは非常に高速で、そのスピードが我々の期待を超えていたのですぐに利用することを決定しました。
さらに重要なことは、360iのアプリケーションではソートユーティリティが、 バッチプロセスとして起動されるバックエンドのスクリプトに、 簡単に組み込みができなければいけないという絶対的な要求仕様があったことです。 CoSortのソートコントロール言語(SortCL)は、 OSのコマンドラインから実行できる柔軟でパワフルなスクリプト言語です。 CoSortのスクリプトをWindowsの.batファイルに組み込むことにより、 ウェブデシジョンズ社はバックエンドの処理要求を簡単に実現することができました。
使用している機能
CoSortのソートコントロール言語(SortCL)は、この製品の広範囲な機能を記述し引き出すパワフルな4GL言語です。一方、この製品にはGUIも含まれています。ソートコントロール言語は、複数の入力ファイルと複数の変換処理を一回のI/Oパスで実行するような、複雑なスクリプトを記述できるパワーユーザ向けのものです。
ソートコントロール言語(SortCL)は、複数のファイルから異なるフォーマットへデータを、連結、選択、フィルタ、ソート、変換、集計する機能を提供します。リレーショナル・データベースの連結と同じく、SortCLは2つまたはそれ以上のファイルを照合し、マージされた結果を出力することができます。レコードは、条件設定に基づいて選択されフィルタにかけられて、出力される前に新しいレコードレイアウトに整形されます。さらに、フィールドは移し変えられてデータは集計されたり要約されたりします。このように迅速なレポートを処理する理想的な方法を提供しているのに加えて、CoSortはこれらの機能を非常に高速に処理します。
現在、ウェブデシジョンズ社は、数百万のレコードをソート、集計、整形するのに、主としてSortCLを利用しています。しかし、新規開発案件にあたってのウェブデシジョンズ社の姿勢として、そのデータ処理作業のソリューションにCoSortが使えるかをまず評価した後に、実際のプログラミング作業に移ります。これまでCoSortを2年間使用して、ウェブデシジョンズ社は、数週間、ことによると数ヶ月にも及ぶプログラミング作業から解放されたと言えるでしょう。
利点
ウェブデシジョンズ社でCoSortバージョン8.1の導入を開始した頃、我々の初期テストでは実質的に処理能力の向上が認められたのですが、CoSortのソートコントロール言語(SortCL)は、フィールド区切りのあるファイルのサポートを改善する機能拡張が行われている最中でした。ウェブデシジョンズ社では、非常に大きなMicrosoft CSV (comma separated values)ファイルを扱わなければならなくなり、これらの機能追加を期待して待つことができました。
弱点
ウェブデシジョンズ社のデータ処理の要求として、 外部から受け取ったMicrosoft CSVファイルを処理できるという点がありましたが、 CoSortはMicrosoft CSVファイルのうちいくつかを処理できませんでした。 二重引用符(")で囲まれたフィールドと囲まれていないフィールドの不整合が、 望ましくない出力結果の原因となっていました。 しかし、イノベーティブ・ルーチンズ・インターナショナル(IRI)社は、 すぐに対応してSortCLスクリプトがこの問題を回避できるように修正しました。
選定基準
ウェブデシジョンズ社はCoSortを選択しましたが、その理由は、 ソートコントロール言語(SortCL)があることと、 ソート機能をバックエンドのバッチ処理に容易に組み込めることでした。 有力な競合相手がコマンドライン・インターフェースをサポートしていなかったことから、 CoSortに軍配が上がったのですが、たとえ競合相手がこの要求を満たしていたとしても、 その性能と価格からCoSortを選択したと思います。
カスタマー・セグメンテーション
大きな決断のために大規模データを高速に要約する
課題
人口統計と購入カテゴリの観点から顧客を理解することにより次のようなメリットがあります。
- 顧客のより多くの需要に応える
- 広告ターゲットを絞り込む
- 製品の配送処理を改善する
- 投資決定の是非を判断する
しかしながら、現実に成長機会を改善したり、製品の紹介や売り込みに関してさらに特別な決断をしたりするには、会社にとって顧客需要に踏み込んだ洞察力が必要です。非常に大規模なデータセットでは、カスタマー・セグメンテーション分析は、 時間のかかるとても難しい作業になりがちです。 機密データを暴露しないように、特定の統合された保護処理が必要な場合もあります。
レガシーなアプローチでは、内部および外部のレビューで必要となる、これらの分析からの監査証跡手段を提供していません。
解決策
大量の抽出したレガシーファイルに対して、CoSortのSortCLツールは、セグメント化、ソート、レポート作成、 ジョインなどの結果を、特定のサブセット、ビュー、フィルタリングされたグループ内に供給します。同一のジョブスクリプトと処理パスのデータを使って、必要なだけの種類の出力を作成できます。その出力それぞれには、カスタムレポートのフォーマットで異なるセクションのデータを含ませることが可能です。
セグメント化には、次のような異なる選択基準を設定できます。
- 氏名、年齢、住所、日付範囲
- アカウントまたは他のID番号
- トランザクションまたは製品(SKU)のID番号
- ウェブページ閲覧時のアドレスまたはIPアドレス
- 新規、変更、削除、重複(データの種別)
need-to-knowルールにより機密データの漏洩を防ぐために、 SortCLのビルトインのフィールドレベル暗号化が利用できます。 (または他のプライバシー保護関数ライブラリも利用可。)
SortCLの実行ごとに、XMLの監査ログを出力することができます。 これにより監視機能の提供とプライバシー規則への準拠のために、 ユーザー、ジョブ、実行時のパラメータをチェックできます。
変更データキャプチャ(デルタ・レポート)
データの収集、維持、更新は高速に。ファイルの比較は簡単に。
課題
処理しているデータには、過去のデータに比較して、定常的に変更、追加、削除があります。データウェアハウスの保守とビジネスグループは、ファイルの比較が必要で、また同時に、データの変更ごとにキャプチャ、分離、分析も必要です。
残念ながら、多くのデータ収集ツールや手法で採用されているファイル比較や変更データキャプチャの機能は、使いづらかったり、エラーを起こしやすかったり、単一のデータベース・ソースや機能に制限されたり、という傾向があります。このようなツールの代替ソリューションとして、毎回ウェアハウスを更新するたびに、データベース全体を読み込んだり、変更したりすることは非現実的な手段で、 とくにデータが増えて大規模になると、なおさらそのようなことはできません。
言い換えれば、テーブルサイズの成長に合わせて、デルタ(差分)を縮小にするのに、データベースの内部処理だけで可能かどうかという問題です。
解決策
データベースのトラップ(キャプチャ)とオフラインでのレガシーデータの変更は、 高速で機能豊富なCoSort SortCLツールのジョブスクリプトで実行してください。 このジョブスクリプトで、ジョインとレポートのロジックを統合しながらファイルの比較が行えます。 これによりDBMSの大きな処理負荷は削減されます。(CDCテーブルの更新により引き起こされる処理負荷)
たとえばOracleの抽出機能と互換性のあるFACT (Fast Extract) でSELECTクエリからスタートして、 あるタイムスタンプ以降の行だけをフラットファイルに出力します。 あるいは、アンロードの時間を省略するために既存の抽出機能を使ってもかまいません。
CoSortのSortCLツールは、複数のアーカイブファイルからの条件式によるジョインが可能で、 複数のターゲットファイルへの出力も可能です。 挿入、更新、削除のキャプチャした結果をカスタムレポート内に出力して、 データベースのローダーを使って(プレソート済みの)差分のみを追加することができます。 あるいはまた、そのデルタ(差分)を他のアプリケーションで使えるようにすることもできます。 ―― これらの処理はすべて同時に実行できます。
さらに、新規追加、変更、削除がされたレコード数もそのレポート内に出力したり、 SortCLのランタイム統計情報に問い合わせたりすることもできます。 (innerおよびouterジョインでマッチングしたカウントです。) トランザクション内の変更にレッドフラグでラベル付けをして、ログ出力し、 変更の分析を行い、傾向のフォレンジック的な考察を行います。
上記の処理に加えて、変更のあったデータに対して、SortCLが同時に実行できるのは次の処理です。
- リフォーマット
- クロス計算
- ランキング
さらに変更のあったデータに対して行う、次のようなフィールドレベルのコマンドや機能があります。
- データ変換
- クレンジング
- データ保護
- プレゼンテーション出力
このように価格効率のよい変更データキャプチャのソリューションは、 大規模なファイル比較とデータの更新処理において、 同時処理のデータ変換とビジネスチャンスのレポート出力を強化します。
高機能なダッシュボード・ツール
強力なバックエンドと美しいフロントエンドの融合
課題
一般的にダッシュボード・ツールは、複数の部門やビジネスラインにわたって、ソースデータのビジュアル化を自動的に実行したり統一したりするのに役立つツールです。ただちにマーケットや商談や物流などをシフトできるよう、 管理職クラスの人がデータをモニターするのに有用です。
しかし、より役に立つよう事前にデータ変換が必要な場合や、さらに誤りを修正することが必要な場合にも 従来のツールは対応しているでしょうか?また、大規模なデータセットにも対応できるでしょうか? このような場合に必要になるのは、ソースデータの統合、削減、クレンジング、エクスポート出力です。 バックエンドのステージングとスクラブ処理は、ダッシュボードのインポート要求に対して、 フィルタリング、ソート、集計、正確なサブセットのリフォーマットが必要になります。また、プライバシー保護の観点から同時にデータ保護処理も必要になるかもしれません。
解決策
大量のファイルを処理する間に、CoSortのSortCLツールは広範囲にわたるフィルタリング、データ保護、 カスタムレイアウトの処理を行ったターゲットファイルを出力し、 同時にエンタープライズ・ダッシュボードでインポートできるデータも出力します。
ダッシュボード機能のあるツールをお持ちでなければ、ベスト・オブ・ブリードでiDashboard アプリケーションをCoSortとともに使うことを、ぜひご検討ください。
iDashboardの改良されて便利になった機能により、事前に処理されたデータを、 動的でグラフィカルなビジネスインテリジェンスに変換して、 表示、利用、出力することができます。 このダッシュボード・ツールでは、SortCLの出力データに対しさらにフィルタリング処理を行い、 洞察を深めるために他のソース(ODBCなど)と統合することができます。
すでにダッシュボード・ツールをお持ちであれば、SortCLがそのデータソースに対して前処理を行う余地があります。 フラットファイルに対するデータ統合やステージングにおいて、高機能なデータ変換エンジンであるSortCLは、 そのダッシュボード・ツールにインポートする大容量のデータソースを準備することが可能です。
複数の大規模な入力ファイルに対して、SortCLはフィルタ、ソート、ジョイン、集計、スクラブ、データ保護、 などの処理を行い、ダッシュボードやスプレッドシートが必要とするCSVやXML形式にリフォーマットして、 ファイルのエクスポート出力を行います。 BIアプリケーションでこれらの処理を実行した場合の処理負荷を解放します。 これが現状におけるベスト・ソリューションです。
-
製品情報
-
ソリューション
-
事例紹介
-
お見積もり・試用版