大規模データの統合・正規化の事例
CoSort 9.1.2で高速処理を実現したトムソン・ロイターにおける財務データの統合と変換
インフォメーション・マネージメント・マガジン、2009年1月/2月号
製品レビュー
レビュー寄稿者: エラン・バラク
トムソン・ロイター社 戦略グローバル責任者、コラボレーション・サービス担当
バックグラウンド
トムソン社とロイターグループPLCは2008年に合併して、多くの産業界向け財務情報およびBIデータを提供するリーディング・カンパニー、 トムソン・ロイターが発足しました。
企業規模は従業員5万人、年商130億ドルで、最大の競合ライバルの2倍となりました。 有名なロイターニュースの統合により、トムソン・ロイターは、 ビジネスや専門家向けの高度な情報を提供する、 世界的な情報サービスのリーディング・カンパニーとして活動を開始することになりました。
産業に関する高度な専門知識と先端技術を組み合わせ、 金融・法律・税務会計・科学・医療・メディア分野の意思決定者向けに、 世界で最も信頼される情報提供者としての役割を果たしていきます。 トムソン・ロイターのコラボレーション・サービス・グループは、 安全かつコンプライアンスに基づいた方法で、 財務担当者にコミュニケーションとコミュニティサービスを提供しています。
プラットホーム
インテル系マルチCPUサーバ上のWindows Server2003
問題解決
トムソン・ロイターには、数種のDBMSと内部アプリケーションにまたがる複数のデータソースがあります。 内部アプリケーションはBIレポートが必要とする基礎データを供給します。 トムソン・ロイターでは、この作業を効果的に処理するために前処理として、 これらのデータを迅速に統合したり、操作したりする必要があります。 この問題はCoSortによって解決されました。 すなわち、膨大なファイルを即座に統合して加工することが可能となり、 データは正規化されてレポートツールで利用できるようになりました。 CoSortを使用する以前は、トムソン・ロイターでは、 このようなファイルサイズの大きな異種ソースデータを限定された特定の分析のために、 容易に正規化することができませんでした。
製品の機能概要
トムソン・ロイターはCoSortのSort Control Language(SortCL)データ操作プログラムを利用しています。 テキストのSortCLジョブスクリプトを開いてみると、ファイルのフィルタリングや変換方法の定義があり、 同様に新しい出力書式の定義があることがわかります。 最もよく使用されるSortCLのデータ統合機能は、ソート、ジョイン、重複除去、条件選択(if-then-else)、 集計、フィールドの再マッピングです。 トムソン・ロイターではSortCLのメタデータ・レポジトリ機能を利用して、 入出力ファイルのデータレイアウト定義を記述したファイルを一ヶ所に集約して、 そこにある定義ファイルに対してレイアウトの新規作成や編集を行い、 別のジョブでも再利用できるようにして、 アプリケーションからデータレイアウトの記述に関する部分を切り離しています。 SortCLジョブはコマンドラインでのバッチ起動による実行のほか、 Javaグラフィカル・ユーザー・インターフェース(GUI)または アプリケーション・プログラミング・インターフェース(API) 呼び出しからの起動により実行することができます。 ジョブイベントをスクリーン上でモニターすることができますが、 アプリケーション実行の統計情報と他の詳細情報などはオプションのログファイルに記録することもできます。
長所
CoSortのSortCLツールは、1つのジョブスクリプトの中に複数の入出力定義と処理をまとめることで、 複数のデータ統合およびデータ変換タスクを一括処理することができます。 入出力パス上の入力または出力の処理も一括処理されるので負荷が軽減されます。 並行処理と動的なメモリ配置の結合という効率化によって、CoSortの価格性能比は、 大規模データ処理において優れたレベルを保持しています。 SortCLのジョブ言語は、論理的であるとともにかつ明示的であり、 したがってタスク設計と実行はシンプルで容易に習熟することができます。
短所
CSVのフィールドにバイナリ・データが含まれているとき、 LF(改行)コードと誤認識するという問題がありました。 IRIから修正パッチを入手するまで、 SortCLエラーメッセージによると行番号の不一致という問題が解消できませんでした。 また、サブストリングとパターンマッチング機能が含まれていて、 それを使おうと思ったある文字列操作機能でも、SortCLは期待通りの動作をしてくれませんでした。
選択基準
以前、トムソン・ロイターは、大規模データの集計とデータ変換の処理に内製のプログラムを使用していました。 しかし、処理するデータサイズが1日1.5GB以上になると、 Windowsシステム上の高性能で高機能なツールが必要になりました。 トムソン・ロイターはリサーチの結果、CoSort SortCLツールは必要条件を満たしているとの結論に至りました。
成果
CoSort SortCLツールで、トムソン・ロイターは、 フィールド・レイアウトがオーダーメイドの派生フィールドであるCSVとLDIFのような、 固定長および区切り文字つきテキストファイルを出力すること、 つまりレコードレイアウトを完全にカスタマイズすることが可能になりました。 処理結果が1つ以上の形式で1種類以上のファイル出力であっても、 1回の処理実行と入出力パスですべての出力処理が可能です。 大規模で異なるデータソースを統合して、 同時にこれらの異なる出力ターゲットを作成するSortCLの性能は、 開発と実行に要する膨大な時間を短縮してくれました。
ベンダーサポート
購入前の評価期間中とCoSortライセンス購入後の両方において、 IRIは正規の範囲を超えてトムソン・ロイターのサポートをしてくれました。 私たちはIRIの迅速で柔軟な対応に感謝しています。 そして現在は、近い将来リリースされる新製品について話し合っています。
ドキュメンテーション:
CoSortドキュメンテーションは、長いですが確実な内容となっています。 マニュアルとインストーラに含まれるSortCLジョブスクリプトのサンプルは、 処理速度を向上するのを容易にしてくれて、 私たちも複雑なSortCLジョブスクリプトを2,3日で書くことができました。 このことはメタデータの透明性と提供されるサンプルの妥当性をよくあらわしています。
-
製品情報
-
ソリューション
-
事例紹介
-
お見積もり・試用版