ソリューション|CoSort9

大容量データ加工

複合的な変換処理を1つの高速な処理(ワンパス)に統合

昨今の大容量のデータ変換をどうやって処理していますか?
ETLツール、Perlスクリプト、カスタム・プログラム、PL/SQLプロシージャーなどで処理すると、 コストがかかり維持が困難な場合があります。 デザイン、コーディング、実際の処理にも時間がかかることもあります。 そうならないよう、大きなジョブを複数のCPUで処理させ、同じI/O内で複数タスクを走らせて、 パフォーマンスを最適化するためにリソースを動的に割り当てるというような、 対症療法的な対策を取っているケースもあると思います。 現在、使用しているソフトウェアで十分な満足を得ていますか?

CoSortの中心的なツールであるSortCLは世界最大の、データ・ウェアハウス、 オペレーショナル・データ・ストア、クリックストリーム(Webアクセスログ)のデータ・ウェアハウス において大きな働きをしています。 SortCLは大きなファイルのソート、ジョイン、集計を行い、 データ・ウェアハウス・オペレーション、データベース再構築、ランキング、サーチ、 照合などの処理を高速化します。 同時に、SortCLはカスタム・フォーマットの出力レポートを作成し、 データマートとBIツールで処理が可能な予備処理済みのサブセットを提供します。

CoSortのSortCLは、DataStageやInformaticaと同じように、ETLツールといっしょに、ソート、ジョイン、集計、ロードのスピード化をはかるために使うことができます。CoSortはまた、UnixやWindowsに含まれているソート・コマンドを強力なCoSort 9エンジンに置き換えるための代替用ソート・コマンドも含んでいます。

目次

これらの処理すべてを一つのデータ処理パスで、 しかも、ほとんどの処理はたった一つのSortCLジョブ・スクリプトで実現!
さらに、SortCLは同時に処理中のデータ保護のためのデータ・セキュリティ機能を、 広範囲にわたってサポートします。 その内容はフィールド・レベルの暗号化、ID解除、そして匿名化です。 データとアプリケーションのプロトタイプのために、 また、SortCLはセット・ファイルから値をランダムに生成、またはランダムに選択し、 プロダクション・ファイルまたはレポート・フォーマットに安全なテスト・データを作成します。 SortCLは、これらのデータ保護機能とプロトタイプ作成機能を、 上記のデータ変換と同じジョブ・スクリプトとI/Oパスで同時に実行することができます!

CoSortは既存のアプリケーションとともに動作し、かつ加速させる

CoSortのSortCLデータ変換ツールは、アンロード・ツールと併用することを前提としています。 OracleとDB2では、SortCLはCoSortの高速抽出ツールFAst extraCT(FACT)からパイプされたデータを取得し、 プレソートしてSQL*Loaderのようなデータベース・ロード・ユーティリティーにパイプします。 SortCLを使えば、エンド・ツー・エンドのOracle reorgとフラットファイル・データ・ウェアハウス、 エクストラクト・トランスフォーム・ロード(ETL)オペレーションを、 業界最高のデータボリュームとパフォーマンス・レベルで処理実行することができます。

SortCLの直観的でわかりやすいデータ定義言語(DDL)は、 シンボリックなフィールド名と集中管理で共有できる統一されたメタデータ・リポジトリーを使います。 以下の目的でこれを使用します。

  • ターゲット向けにソースをマッピング
  • スクリプト・サイズと作成時間を縮小する
  • データベース再構築機能とETL操作
  • ロードとファイル比較用のメタデータ作成

SortCLのジョブ・スクリプトは、データ・レイアウトを利用したり、参照したりする SQLに類似したデータ操作言語(DML)コマンドを含んでいます。
4GLのSortCLジョブはコマンドライン、バッチ・スクリプト、3GLのプログラムなどから実行します。 また、先端技術のクロス・プラットフォームなJava GUIから実行することもできます。 SortCLとCoSortパッケージ内の関連機能は、多くのサードパーティのデータ・レイアウトの取り込みが可能です。 COBOLコピーブック、CSV、CLF、ELFのウェブ・ログ、SQL*Loader Control File メタデータなどです。 Meta Integration Technology, Inc. (MITI) は、 SortCLのデータ定義ファイル・フォーマット向けにメタデータ・モデル・ブリッジ (MIBI)を作成したので、 ツール・ファイル・レイアウトをそれに近いSortCLジョブで強化することができます。
SortCLは、ほかのCoSortユーザー・インターフェースと同様に、 CoSortのきめ細かいパフォーマンス・チューニングとフレキシブルなCPUライセンシングに依存しています。 並行処理技術、I/O処理、データ操作ルーチンの改革などに関しては、業界とのパートナーシップを継続し、 CoSortは市販のデータ・ソートと関連ファイル処理の分野で最先端を走り続けています。

目次に戻る

選択/フィルター

必要なものだけを処理し出力する

課題:

重複レコードを除去して、定められたビジネス・ルールに基づきレコードを取捨選択しなければいけません。このようなデータ・スクラブ処理は別の前処理ステップに含まれることが多く、ときとして非効率的なプロシージャー、O/Sコマンド、シェル・スクリプトで行なわれます。こういったプログラムは保守や再利用が困難な場合があります。

解決策:

CoSortのSortCLツール・プログラムは、主要処理(ソート、マージ、ジョイン、レポート)のアクション前後のサイズ、数、レコードの流れを管理するために、いくつかの水平型(レコード/行レベル)、垂直型(フィールド/列レベル)の選択を指定するステートメントを備えています。SortCLによるレコードの削除、縮小または受け渡し機能は、入力・出力の両フェーズで高性能なSQL指向のデータ・フィルタリング処理を実現します。大容量データの整理縮小によって、SortCLによるデータ変換、レポート作成、ロード、その他ダウンストリーム処理の効率が向上します。
SortCLは、ソート、ジョイン、集計、レポート処理を実行しながら、レコードの取り込み、除外、リフォーマットをするために広範囲の条件ロジック(if-then-else)などの処理にも対応します。また重複除去と、バイト、ヘッダー、レコードを指定するコマンドを通じてレコードのフィルタリングが可能です。たとえば、フィールドの値の範囲を設定して、その範囲外の値を持つレコードだけを出力するようSortCLに指示することができます。同様に、データベースにロードする前に不正レコードを除外または分離するために、文字書式を確認したり、ほかのデータ整合性チェックを実行したりすることができます。

目次に戻る

ソート/マージ

CoSortの定番キャッチフレーズ:大型ファイル・ソート・パフォーマンス

課題:

ソート処理はいまだデータ処理において重要不可欠な要素です。ソート処理は、データベース・ローディング、インデックス化、サーチ、データ・ウェアハウス情報集約、ジョイン、レポーティングといった処理の中核をなしています。ソート処理は、またリソースを消費する処理でもあります。ファイルのサイズが数100メガバイトからテラバイト・レベルへと増大するにつれ、ソート処理は幾何級数的に演算リソースを必要とします。DB、ETL、スタンドアロン・アプリケーション、オペレーティング・システム、コンパイラなどにビルトインされたソート機能は実環境での使用には不向きです。

ソート処理に求められる堅牢性に関する必須項目:

  • 大規模ソートの高速処理と拡張性
  • サポートするデータとファイルのタイプ
  • イベント・モニターとエラー処理
  • パフォーマンスのチューニングとログ生成
  • サードパーティのソフトウェア、ハードウェアとの相互運用性

市販のソート・ソリューションに求められる他の項目:

  • ソーティングと同時に他の処理を実行する機能性
  • ユーザー・インターフェース
  • ソートのプラグインまたは確実な置き換え
  • メタデータ・フレームワーク
  • ライセンシング・モデル
  • テクニカル・サポート(早期対応と有効性)
  • 販売ディーラーの評判

解決策:

データのボリュームが大きくなればなるほどCoSortの価値も高まるでしょう。 CoSortはすべてのUnix、Linux、Windowsプラットフォーム上で、 大規模な並行ソートと複数の同時データ変換のための スタンドアロン・ユーティリティーとAPIインターフェースを提供します。 いかなる数、サイズ、構造化フィールドのタイプ、キー、レコード、ファイルでもソートできます。 さらに、これにはメインフレームのバイナリーデータ、IPアドレス、マルチバイトのアジア圏の文字、 Unicodeなども含まれます。 CPU、メモリー、ディスク、関連リソースのチューニングを行うことで、 CoSortエンジンはボリュームに比例して処理サイズを拡張できます。 マルチCPUのUnixサーバー上で数ギガバイトの入力ファイルを1分未満でソート可能です。

ソート処理の間に、同時にさまざまな機能を実行することができます。それら機能には、フィルタリング、マージ、ジョイン、情報集約、クロス計算、データ変換、ID解除、暗号化、ルックアップ、リフォーマット、リマップ、レポート、妥当性確認、プロトタイプがあります。CoSortのSortCLツールがあれば、複数の入力とフォーマットを複数の出力ファイルとフォーマットにマップする際に、これらの機能を組み合わせることができます。SortCLは、スタンドアロンまたは統合されたソート操作で実行可能なCoSortパッケージに、いくつも含まれているインターフェースの一つにすぎません。すべてのソートおよびデータ変換の操作は、監視、ログ生成、監査が可能です。
CoSortはまた、時間と経費の節約になるシームレスなライブラリー、ツール、サービスによって 多くのサードパーティのソート機能を置き換えることができます。

目次に戻る

照合/結合

ソート・パッケージ内で複数テーブルのジョイン - CoSortの革新的機能

課題:

大きなテーブルをジョインするには時間がかかることがあります。データベースやETLのツールはかならずしもその処理に適しているとはいえません。そのような自家製のツールによるソリューションは処理速度が遅かったり、保守が困難であったりする場合があります。
また指定された時間内に、1個以上のフィールドにまたがって2個以上のファイルを比較し、変化(インサート、アップデート、デリート)が起きたことを識別するための、迅速で簡単な方法を必要とすることもあるでしょう。言い換えれば、トランザクションファイルからどうやって詳細レポートの作成をするのか ・・・といった問題が考えられます。

解決策:

これらの処理をファイルサーバーや他のマシンの比較的ビジーでない環境で、 処理させることを検討したことはありませんか?
CoSortのソート・コントロール言語 (SortCL)ツールで、同時に複数ファイルのフィルタリング、ソート、ジョイン、リフォーマットができます。 同じジョブ・スクリプト、パス内で、クロス計算したりマッチした結果から、新しい値で計算フィールドを作成したりすることもできます。アウトプット向けには、複数の詳細およびサマリーのレポート・ターゲットをカスタマイズし、多くのフォーマットで選択したファイル・セグメントを他のツールに渡すことができます。
CoSortのSortCLツールはinnerおよびouterジョイン機能をサポートしており、連結された出力と指定した条件に基づくファイル比較を行うことができます。固定長または可変長のフィールドを持つ1つ以上のソート済みまたは未ソートのファイルを、入力、結合、出力の各ファイルとして指定できます。
またSortCLは、outerジョインからinnerジョインの結果を除去し、nullレコードを除去およびリフォーマットして、ふたたび同じジョブ・スクリプトとI/Oパス内で、結果データを操作・リフォーマットを繰り返すことが可能です。これによって、ソーティング、情報集約、レポーティングで複数テーブル・ジョインが可能となり、CoSortの強力なデータ保護とプロトタイピング機能による相乗効果も期待できます。 ―― もう一度、くどいようですがこれらの処理は同時に行われます。

目次に戻る

集計

ドリルダウンとロールアップの同時処理/カスタム・ディテールとサマリー・レポート

課題:

ラルフ・キンボール博士の『データ・ウェアハウス・ツールキット』によると、「プレソートされたサマリー(集計)を使うのは、データ・ウェアハウス設計者が、パフォーマンス管理するための唯一にして最高に効果的なツールである。」
問題は、データベース内での「group by」の集計処理、スター・スキーマ処理、ETLと他のツールのサマライズ処理などが、データボリュームの増大に伴って遅くなる可能性があることです。

解決策:

CoSortのSortCLツールは、非常に簡単かつ効率的にファクトテーブル、ドリルダウン、ロールアップの集計における計算処理を支援します。SortCLは同じジョブ・スクリプトとI/Oパス内で、大規模のソート、ジョイン、レポートの処理を結合して並行集計操作を実行します。
複数のブレーク・レベル(最後の集計結果を含む)で、詳細レコードを積み上げて作成するような簡単な出力レポートの作成にSortCLを使ってください。この処理に関連する機能には次のものがあります。

  • サマリー
  • 平均
  • 最大値
  • 最小値
  • カウント
  • ランキング

ファイルの最後に達すると、すぐに結果が出力されます(すなわち、ロールアップ集計)。そして、大規模な同時ソートとグルーピング作業が必要とされるところがどこであっても、SortCLを利用することができます。
SortCLはまた、EISサマリー(経営情報システム要約)用にレコード間およびレコード内の論理ブレイク条件にもとづいてデータをグループ化したり、あるいはいろいろなタイプの数値データのドリルダウン分析を行ったりすることもできます。 これは詳細とサマリー・レポートを作成するにあたっての優れた機能で、ファクトテーブルのレコード集計にとっても有効な機能です。個々のセールス・レポートを分離することで、さまざまなフィールドの組み合わせ(つまりSKU(在庫管理の単位)によるトータル・セールス、従業員、ロケーションなど)にもとづくトランザクション集計に反映することができます。
それぞれのレベルでサマリー・レコードをフォーマットすることもできるし、各レベルごとに別々のファイルにすることもできるし、サブ・レベルをマージして一つのファイルにすることで構造化レポートを作成することもできます。他のオプションとしては、集計のランニングトータル(累計)、クロス計算値の集計があります。また、SortCLの他のデータ変換(目次を参照)に関連して、これらの機能を使って特定用途向けプレゼンテーション、複雑なトレンド分析をすることもできます。

目次に戻る

クロス計算

クロス計算の数学関数と論理式

課題:

データ変換とレポート作成をするあいだに、数学的およびそれに類似した処理によって、新しいフィールド値をクロス計算したり導出したりする必要が出てくる場合もあります。この機能は表計算アプリケーションで容易に得ることができますが、大規模データ処理ツールや操作では容易に達成できるとはかぎりません。集計値に数式をあてはめたり、さまざまなネストされたレベルや独立した事前数値データから、値を導き出したりしなければいけない場合に、正しい結果を得るのは複雑な問題になることがあります。

解決策:

カスタムの財務計算や表計算スタイルのプレゼンテーションを必要とするレポート・ジョブのために、CoSortのSortCLツールを使えば、フィールド名のかわりに数式を使って、新しいアウトプット値を導出することができます。この数式には独自の数値データ、複数の既存データベース・フィールド、またはその両方を含むことができます。
SortCL は水平方向の算術演算、三角関数、ベッセル関数、対数関数機能 および絶対値、剰余などをサポートします。次の例のようなフィールドと定数を混合した複雑な数式を定義することができます。

/FIELD=(NewField=FieldA+400*(32000-FieldC)

必要に応じてロジックや数式を入れ子構造にするために演算子の優先順位もあります。演算子の優先順位をコントロールするのに括弧を使い、計算途中の値を保持するために一時的なフィールドを定義します。
特定の財務計算の数式や表計算スタイルのプレゼンテーションには、SortCL のクロス計算機能がとくに便利です。ジョイン操作で使われるような構造化レポート・フォーマットによる有用なビジネス・インテリジェンスを作成するために、クロス計算を使うこともできます。たとえば、トランザクション・ファイルをアーカイブ・ファイルにジョインする間に、SortCLレポートでは新しい収支決算を算出して表示することができます。

目次に戻る

リマップ/リフォーマット

データ変換をしながらリマップ、リフォーマット、レポート処理をする!

課題:

ハイ・ボリュームのデータ変換は一度に遅いペースで1ステップずつ実行されることがよくあります。すなわち、フラットファイルでソートし、ジョインまたは集計をしてから終了するというステップです。そのファイルは別のプログラム、データマート、データの正規化またはBIを行うツールなどへ受け渡されます。そうでなければ、大規模データ変換が行なわれる前にデータをフィルタリングして、フォーマットするための事前処理が実行される場合もあります。どちらにしても、データを通す複数のパスが必要になります。

解決策:

CoSortのSortCLツールは同時に多くのデータ・マッピングをすることができます。アウトプット用のデータの移動、フォーマットにシンボル化したフィールド名を使うからです。これによって、ETLの"重量挙げ"とも呼ばれる大規模変換処理を行なうジョブ・スクリプトとI/Oパスは、同じものを使ってデータをリフォーマットしてレポート作成することが可能になります。
厳密には、SortCLは固定長または可変長ファイルのフィールドを入力から出力へとマッピングするときに、 データをリマップ(ポジション変更、サイズ変更、整列、トリミング、パディング)し、タイプ変換することができます。さらにカスタム・レイアウト・オプションとして、 固定長のレコード・レイアウトから可変長(フローティング)への変換機能とその逆の機能があります。ヘッダー・レコードを構文解析し、アウトプット時に除外したりリライトしたりすることができます。スペシャル・フォーマットの文字と環境変数をインサートすることができます。これはウェブ・レポート向けのマークアップ言語コマンドを含みます。
SortCLは新しいディテールまたはサマリー・フィールド値を導出してアウトプットするために、ジョインと(または)値の集計だけでなく、フィールド・データ間の数式(クロス計算)を実行します!同じジョブ・スクリプトで必要なだけ、同時にアウトプットするターゲットやフォーマットを 作成することができます。しかも、それらの処理はデータを通じて同じパスのなかで実行することができます。
SortCL はまた、あるタイプから別のタイプへとファイルをリフォーマットします。だから、Micro Focus ISAMを入力してCSVを出力することもできるし、巨大なフラットファイルをXMLに変換したり、その逆変換をしたりすることもできます。
データベースのインデックスをつけるとき、各出力レコードに整数値を割り当てるために、"sequencer"フィールドをフォーマットに追加し、初期値とオフセット・ポジションを指定することができます。するとデータベースは、このナンバリングされたフィールドで、レコードを相互参照することができるようになります。

目次に戻る

データ・スクラブ/データ・クレンジング

ハイ・ボリュームのデータをワンパス内でクリーニングして変換する

課題:

データ・クレンジングは複雑で時間と経費がかかることがあります。ご使用中のツール内にあるデータ品質機能は、ビジネス・ルールを満たしていなくて、すべてのジョブを網羅していないかもしれません。カスタム・ファンクションの実行は、ツールのデータ・フローに接続して、データを小分けにして走らせなければならないような別々のバッチ・ステップで、あるいは特別な"スクリプト変換コンポーネント"で行う必要があるかもしれません。データボリュームが大規模になると、クレンジング時間は確実に増大します。結論として、データが百万行を超えたら、データ品質を向上させる処理が非効率的なまたは厄介な処理だということは想像に難くないでしょう。

解決策:

CoSortのSortCLツールは、同時に多数の大きなファイルをクレンジングすることができます。 組み合わせが可能な組み込み機能は以下の通りです。

  • 重複除去
  • 文字の検証
  • 水平方向および条件付き垂直方向のレコード選択

高度なクレンジング・ルールとビジネス・ルールのために、独自の関数や他社製データ品質ツールのライブラリー関数をプラグインすることができます。SortCLは現在、ジョブ・スクリプト内の入力と出力の両フェーズで、カスタムのフィールド・レベル変換をサポートしています。これは任意のフィールドについてどちらの場所でクレンジング関数を定義してもよいということです。 (すなわち、1つのジョブにおいて、フィールドには2つまでDQ(データ品質)ルーチンを設定できます。)CoSort のマニュアルでは、市販のデータ品質ツールの一例としてMelissa Dataアドレス標準化ライブラリーを紹介しています。
つまり結論は、CoSortとデータ品質ライブラリー関数があれば、フィルタリング、データ変換、プロテクト、プレゼンそれぞれを行う、あるいはすべてを行うのと同じ処理内で、データ・クレンジングの実行が可能だということです。

目次に戻る

サブストリング

CoSortはパターン・マッチングと文字列操作で正規表現をサポートする

課題:

文字列レベルの表現ロジックは、あるパターンによってデータを検索、操作するのに使われます。この機能はテキスト・エディター、シェル・コマンドに関連することが多いのですが、ハイ・ボリュームのデータ処理オペレーションに統合されることはめったにありません。言い換えれば、文字列の構文解析、パターン・マッチングおよびほかの低レベル操作は、つねに別々のツールとI/Oパスで実行しなければならず、コーディングと処理実行のオーバーヘッドを増大させています。

解決策:

CoSortのSortCLツールは現在、パターン・マッチング用にPerl互換の正規表現 Perl Compatible Regular Expression (PCRE)を直接統合しています。同様に検索、置換、他の部分文字列レベルのデータ操作でもPCREをサポートしています。これはフィールドのパッディング、整列、文字検証、フィールド・リマッピングでも有効です。
さらに重要なのは、他の同時に実行可能なSortCL処理の機能とともに、同じジョブ・スクリプトとI/Oパスでこの複雑なデータ操作が実行できるということです。実行可能なSortCL処理とは以下の通りです。

  • データ処理(変換)
  • データ・プレゼンテーション(レポーティング)
  • データ保護(フィールド・レベルのセキュリティ)
  • データ・プロトタイピング(テスト・ファイル)
目次に戻る

テーブル・ルックアップ

CoSortの多次元ルックアップ機能は値の置き換えを高速に行う

課題:

フィールド・データの匿名化、複数テーブルのジョイン、ビジネス・ロジックにもとづく、離散的なソリューションを含む複雑な計算は、時間も経費もかかる場合があります。 単純なルックアップがランタイム計算に置き換えられるところでは、パフォーマンスが著しく向上することがあります。メモリー内で値を検索するほうが、その値を計算式で算出するより速い場合があるからです。
ルックアップはおおむねETLツールとデータベースで見受けられます。ルックアップ変換は特別な構成が必要で、大規模データでパフォーマンスを向上させるにはさらにステップが必要となることもあります。
一方、スピード、リソース、同時処理の機能が十分にあり有効だと思われるファイル・システムにおいても、類似の機能はこれまで有効ではなかったのです。

解決策:

多次元ルックアップ・テーブルは現在、外部フラットファイル環境で有効です。CoSortのSortCLツールは、ジョブ・スクリプト内の入力と出力の処理フェーズの間で、ルックアップ変換をサポートします。値の変換はタブ区切りのセット・ファイルのカラムから置き換えられます。
このアプローチは以下の問題につながるデータベースのチューニングや保全といった課題を回避します。

  • 離散的解法
  • データ・セキュリティのための匿名化メソッド
  • 多数のテーブル間で多数のジョインを行うことの代替策

ファイル・システムとSortCLのシンプルな4GLスクリプトにより、ルックアップを実行することで、準備作業は軽減して最終的な結果を見る時期が早まる可能性があります。さらに次のことが可能です。

  • 同じI/O内でほかの処理とルックアップを組み合わせる
  • 同じSortCLスクリプト内で生成された値を処理する
  • ルックアップの結果の保護するために即座に暗号化
  • カスタム・レポートでルックアップの結果を同時にフォーマット
目次に戻る

タイプ変換

統合化され、さらに強化されたデータタイプ変換

課題:

メインフレームのバイナリのデータタイプ(たとえばCOMP)の変換や、以下のような代表的なデータタイプの変換には、従来から別々のツールとI/Oパスを必要とし、場合によってはコンサルタントが必要なケースもあります。この例の逆変換(たとえばASCIIからパック形式へ)はとくに問題が多い処理です。

  • 整数型から通貨型へ
  • EBCDICからASCIIへ
  • パック形式またはゾーン10進値からバイナリの整数へ
  • ヨーロッパのタイムスタンプからISOタイムスタンプへ
  • 浮動小数点から数値型へ

解決策:

データタイプ変換は、CoSortのSortCLジョブ・スクリプトにある多数の変換機能と、レポーティング・オプションの一つにすぎません。インプットからアウトプットへデータをマッピングするときに、フィールド指定で単にソースとターゲットのデータタイプを指定するだけです。実際、多くの人々が単にすばやくデータタイプ変換するという用途でSortCLスクリプトを使っています。たとえばEBCDICフィールドをASCIIに、パック形式を数値型に変換するという用途で、ソートを含むものも含まないものもあります。
CoSortは100を超えるデータタイプで照合(ソート)し、変換し、ランダムにフィールドを新規作成することができます。データタイプにはC、COBOLの数値タイプ、マルチバイトの日本語・中国語・韓国語の文字、IPアドレス、通貨型、タイムスタンプなどその他を含んでいます。
特殊なご要望についてお話があればIRIにご連絡ください。特別なデータ・セット向けにカスタマイズしたデータタイプ変換を提供することも可能です。

目次に戻る

ユーザー関数

カスタム・ルーチンによるフィールド・レベルでの複雑な変換

課題:

多くのETLシステムでは複雑な変換を必要とします。その変換手順をカスタム・コーディングで構成しようとすると、おうおうにして特別なスクリプト・コンポーネント、SQLプロシージャーまたはその両者の組み合わせが必要になります。経験曲線とメンテナンス曲線の観点から、これらのオブジェクトが他の変換のように、同じI/Oパスのフィールド・レベルでは動作しないことがわかりますし、ベスト・オブ・ブリードのソフトウェアAPIによる強化もあまり効果がないでしょう。
また、データ・プロファイリングの結果から、多数のデータ・リエンジニアリング要件を抱えることになってしまうことがあります。しかし、それらの要求を満たすために充当する十分な時間や人員がない、つまりカスタム・クレンジングや標準化ルーチンを書く時間も専門的知識も十分でない場合があります。

解決策:

CoSortのSortCLはステージング・エリアでデータを統合し、処理します。ツールがフィールド・レベルでデータの変換、レポート、保護といった処理を同時に実行する間に、カスタム変換もまた同時処理で実行が可能です。SortCLのフィールド・レベル関数のサポートにより、複雑な変換処理をプラグインして、他のデータ処理、プレゼンテーション、保護タスクとともにその変換処理を実行することが可能です。
1つのジョブ・スクリプト内の同じフィールドで2回、カスタム変換を指定することができます。すなわち、入力(ソート、ジョイン、レポートの定義前)と出力(ソート後)の2回です。したがって1つのI/Oパス内で少なくとも2つの異なる方法による各フィールドの変換をすることができます。
SortCLツールは、パッケージの外部(SortCL以外)の機能を取り込むことができる、フィールド・レベルの変換機能によって、機能拡張されることに注目してください。デフォルトの暗号化とID解除ルーチンにくわえ、サードパーティのライブラリー使用例も紹介しています。Melissa Dataアドレス標準化ライブラリーの関数コールは、SortCLマニュアルで説明しています。Melissa Data、または他のベンダー、またはCインターフェース・テンプレートを使った独自のライブラリーから、同様な変換ルーチンを起動することができます。

目次に戻る