ソリューション|CoSort9

ファイル変換処理

複数のファイルフォーマットにおける処理と変換

課題

メインフレームのデータタイプとファイルフォーマットは、オープンシステムのリレーショナル・データベース、データ・ウェアハウジング、レポーティング環境には適合しない場合があるかもしれません。もしまだメインフレーム上で、またはメインフレーム向けにデータ処理をしているのなら、その逆もまた真であると言えます。なぜなら、その理由は、可変長のブロックやCOBOLのインデックス・ファイルをCSVに変換したり、テキストをI-SAMに変換したりする必要があると思われるからです。
同様にXMLは一般的なファイル交換用フォーマットですが、大容量のXMLファイルは操作や変換の対象として実用的ではありませんでした。他方、LDIFは大量の情報を保持していますが、多くのアプリケーションがインポートしたり処理したりできるようなファイルフォーマットではありません。結論として、複数のファイルフォーマットを操作し、レポート作成し、変換し、しかも同時にそれらを処理するようなツールが必要になります。

解決策

CoSortのSortCLツールは、100を超えるデータタイプ、20を超えるファイル・タイプの同時処理 (ソート、ジョイン、レポートなど)と相互交換(変換、作成の両方)をサポートしています。データタイプとファイル・タイプには、MF-ISAM、CSV、LDIF、XML、Vision、Variable Blocked、そして、もちろんシーケンシャル・ファイル(LINE、RECORD、VARIABLE)が含まれます。こうした機能はメインフレームとデータベースのマイグレーション、ETL、デスクトップ・アプリケーションのインポートなどに有用です。

目次

単純なCoSort SortCLジョブで処理が可能で、すぐに変換できるファイルフォーマットの詳細については、 下記のファイル・タイプをご参照ください。

データタイプの変換と同様に、SortCLスクリプトで1つ以上のファイル変換を指定するのは、たんに必要なソースとターゲット・ファイルを定義するだけです。たとえば、CSVファイルをXMLかLDIFまたはその両方に変換するには、ジョブ・スクリプトは次の宣言から始まります。

/INFILE=/path/filename /PROCESS=CSV

そしてアウトプットでの宣言は次のようになります。

/OUTFILE=/path/filename /PROCESS=XML /OUTFILE=/path/filename /PROCESS=LDIF

またSortCLのフィールドのデータタイプを変換することもできます。データ加工>タイプ変換を参照してください。

CSV

CSVファイルをソース/ターゲットとする高速な処理と変換

課題

インデックス、固定長、LDIF、XML、ウェブログなどのファイルフォーマットは、カンマで区切られたフィールドのレコードを入力とする 表計算ソフト、データベース・ローダー、その他アプリケーションのCSVフォーマットと互換性がありません。
逆に、CSVフォーマットでエクスポート出力されたファイルは、メインフレーム、テープ、データ相互交換、レポーティング・アプリケーションで使えるよう、他のファイルフォーマットで処理するために再整形する必要があるかもしれません。

解決策

CoSortのSortCLツールでは、フィールドがカンマで囲まれたCSVフォーマットのファイルは、サイズにかかわらずファイルの取り扱いが可能で、ファイルの入力、レポート作成、保護、変換、出力ができます。
この広範囲に対応したCSVデータ作成機能により、レガシー・データ、LDIF、XMLなどのファイルをすばやくCSVに変換し、PC用のアプリケーションに移行することができます。実際、CoSortのSortCLツールは巨大なファイルのソートと再フォーマットの同時処理をサポートしており、データベース、表計算ソフト、BIダッシュボードなどのCSVを入力ファイルとするアプリケーションにインポート可能なサブセットをすばやく準備することができます。
逆もまた可能です。CSVから他のファイルフォーマットへの変換ができます。固定長、タブ区切り、LDIF、MF-ISAM、XMLなどへの変換ができます。このページにあるサポートしている他のファイルフォーマットの概要を参照してください。

目次に戻る

LDIF

LDAP Data Interchange Format (LDIF)の高速な処理と変換

LDIFはLDAP (Lightweight Directory Access Protocol)のコンテンツと更新要求を表すデータ交換フォーマットです。LDAPディレクトリーは論理的で階層的な構造を併せ持つ類似した属性を持つ情報を保持しています。たとえば、名前でソートされた住所録のようなもので、E-mailと電話番号情報が付加されています。今日の高度なLDAP展開では、多重エントリー・ツリーを示すエントリーを基礎となし、階層構造にDomain Name System (DNS)名称を使うこともあります。

課題

しかしながら、LDIFレコードはカスタマーとトランザクションの情報を大量に保持しているかもしれませんが、それらはほとんどのアプリケーションが容易にインポート、処理できるようなフォーマットで保存されてはいません。

解決策

CoSortのSortCLツールは、LDAPデータを処理(すなわちソート、変換、レポート、保護)し、同時にLDIFのファイルを他のファイルフォーマットに変換、また他のフォーマットからLDIFファイルを作成することができます。たとえば、CSVをLDIFに、LDIFをCSVに変換し、LDIFとXML、LDIFと他のテキスト・ファイル、 インデックス・ファイルのフォーマットの間で相互変換することが可能です。
また、ファイルフォーマットの変換をしないでLDIFファイルの処理をしたり、LDIFファイルの処理をしないでファイルフォーマットの変換だけを行ったりすることもできます。
SortCLジョブ・スクリプトでは、インプットとアウトプットのフィールド・レイアウトの定義において、他のファイルフォーマットと同様に、ファイルフォーマット(ファイル・タイプ)を指定します。たとえば、インプットではインプット・ファイルのすぐ下の宣言は/Process=LDIFで、アウトプットでは/Process=CSVといったような宣言をします。

目次に戻る

テキスト

大きなテキスト・ファイルの高速な処理と変換

課題

構造化されたテキスト・ファイルには固定長、可変長、シーケンシャル(フラット)ファイルがあります。 それらは1レコードの小さいものや、データベースからの抽出、ウェブログ、トランザクション・フィード、 メインフレームのデータセット、他のアプリケーションの出力など、行数が数十億になるものもあります。
一般的に次のような処理が想定されます。

  • 巨大なテキスト・ファイルのソート
  • テキスト・ファイルからのデータ抽出、レポート作成
  • CSV、LDIF、I/VSAM、XML、その他ファイルをテキストに変換
  • テキスト・ファイルを他のフォーマットに変換
  • テキスト・ファイルでフィールドを暗号化したり識別不能化したりする
  • 表計算やデータベースにテキスト・データをロードする
  • レガシーやバイナリのデータをテキスト・ファイルに再整形する

これらの処理の1つ以上が同時に必要になる場合もあるし、 大量の入力ソースや出力ターゲットが必要になる場合もあります。

解決策

CoSortのソート・コントロール言語(SortCL)ツールで、簡単にタイプ変換、データ変換、レポート作成をして、取り扱いやすいポータブルなテキスト・ファイルを生成することができます。また作成されたファイルはどれほど大きなファイルであっても構造的な形式で出力が可能です。 SortCLジョブ・スクリプトでは、入力・出力の両方でテキスト・ファイルはファイルタイプを指定する /PROCESSステートメントのデフォルト・タイプになります。
実際、以下のデータ処理を含むCoSort SortCLのどのプログラムの入力および出力部ででも、1つ以上のテキストおよび非テキストのフラット・ファイルを宣言することができます。

  • データ処理(レコード選択/フィルタリング、データ変換、ソート、タイプ変換)
  • データ出力(デルタ、CRM、サマリーのレポート作成)
  • データ保護(フィールドレベルの暗号化、マスキング、識別不能化)
  • プロトタイピング(安全なテストデータ、ファイルの生成)

これらすべての機能は、― 1つ以上を同時に ― 実行することが可能で、 ファイルフォーマットとしてCSV、XML、LDIF、ISAM、Vision、ウェブログ、 テキストおよび他の大規模な構造化ファイルでデータ構築を行う必要のある人向けです。

目次に戻る

MF COBOL (MFVL and ISAM) ファイル

COBOL可変長ファイルと索引ファイルの処理と変換

課題

レコードレングスがshortとlongのMicro Focus COBOL可変長レコードと、10種類のIndex Sequential Access Method (ISAM)サブ・タイプは、他の多くのアプリケーションがインポートも処理もできないファイルフォーマットです。また、そのフォーマットのままデータを直接処理したり、あるいは別のインデックス・ファイルフォーマットに変換したり、CSV、XML、LDIFのような構造化(かつシーケンシャル化)されたファイルフォーマットに変換したり、することが必要となる場合があるでしょう。

解決策

CoSortのSortCLツールは、Micro Focus 可変長レコードと複数のISAMファイルの両フォーマットを、操作、変換、作成することができます。次のISAMファイルをサポートしています。

  • C-ISAM (デフォルト)
  • IDXFORMAT3、4、8フォーマット
  • Btrieveフォーマット(ANSIエミュレーションあり、なし両方)
  • メインフレーム・プリント・フォーマットのヒープ・ファイル
  • ESDSファイル

これらのフォーマットのファイルは、左記にリストされたファイルフォーマットと相互変換が可能で処理、再整形が可能です。たとえば、MF-ISAMファイルをCSVやXMLに変換することも、またその逆もできます。

目次に戻る

シーケンシャル・ファイルフォーマット

シーケンシャル・ファイルの相互変換

課題

ライン・シーケンシャル、レコード・シーケンシャル、可変長シーケンシャル・ファイルは、それぞれ独自仕様のヘッダー、幅、終端といった属性を持つフラット・レコードを含んでいる場合があります。しかもその属性は、これらのファイルの間でも互換性がなく、また他の多くのファイルフォーマットやアプリケーションとも互換性がない場合があります。前もって処理するリフォーマット・ステップやI/Oパスなしに、これらのファイルフォーマットのレガシー・データを処理したり、インポートしたりする必要に迫られることもあるでしょう。

解決策

固定長および可変長レコード向けデフォルトのテキスト・ファイルの(「record」)フォーマットに加えて、CoSortのSortCLツールは、LINE_SEQUENTIAL、RECORD_SEQUENTIAL、 VARIABLE__SEQUENTIALのフォーマットでの操作、変換を入力/出力の両方向で行なうことができます。以下はCoSortがメインフレームのマイグレーション向けに提供しているサポート・ファイルフォーマットの例と そのデータ処理です。

  • データ処理(フィルタリング、データ変換、ソート、タイプ変換)
  • データ出力(デルタ、CRM、サマリーのレポート作成)
  • データ保護(フィールド暗号化、マスキング、識別不能化)
  • プロトタイピング(安全なテストデータ、ファイルの生成)

変換からソートまで、合計から再整形まで、これらすべての処理は同じジョブ・スクリプトとI/Oパス内で実行することができます。
覚えておいていただきたいのは、これら三種類のフォーマット間の処理、変換に加えて、CoSortのSortCLツールが次のファイルの間でも変換ができるということです。: ACUCOBOL Vision、CLFおよびELFのウェブログ、CSV、LDIF、MF COBOLの可変長とISAM、テキスト可変長ブロック、VSAM(Clerity製品による)、フラットXMLファイル。

目次に戻る

可変長ブロック・レコード

メインフレームの可変長ブロックとテープ・データのデータ変換とタイプ変換

課題

ほとんどのシステムでは、 Unisysおよび他のメインフレームに固有の可変長ブロック・レコード・フォーマットと、 ブロッキング・ファクター付きのテープ・ドライブのフォーマットを処理することができません。 したがって、他のアプリケーションやプラットフォームで使用できるように、 これらのファイルをMicro Focus Variable Length、C-ISAM、Record Sequential、 CSV、LDIF、XMLなどのようなファイル・タイプと双方向の変換が必要になる場合があります。

解決策

CoSortのSortCLツールには、ブロック・レコードを操作(ソート、ジョイン、データ変換、再マッピング、 その他)、タイプ変換、作成を行うための処理(ファイルフォーマット)機能のサポートがあります。 このフォーマットと、上記に列挙したような他のインデックス、 およびフラット・ファイルのフォーマットの間で相互に変換することができます。 ブロック・ファイルフォーマットにレコードを書き込むときには、ブロッキング・ファクターが必要になります。

目次に戻る

ACUCOBOL-GT Visionファイル

Visionデータの処理・変換

課題

ACUCOBOL Visionインデックス・ファイルフォーマットは著作権で保護された、読み取り不能のファイルフォーマットです。これはメインフレームまたはオープンシステムで使われ、照合(ソート)や他の処理要求があり、最終的には他のファイルフォーマットに変換されたり、他のファイルフォーマットから変換されたりする必要があります。

解決策

Acucorpのユーザーは、COBOLデータタイプの変換や関連するデータ変換と同様に、ACUCOBOL-GTデータの高速ソートとして長らくCoSortを使ってきました。現在、Acucorp, Inc.のComplementary Technology Program (CTP)におけるIRIのメンバーシップ提携により、CoSortはACUCOBOL-GTのVisionインデックス・ファイルフォーマットを操作、レポート作成、相互変換ができるようになりました。
厳密にはCoSortのSortCLツール(およびAPIコール)では次のことが可能です。

  • Visionファイルの処理(ソート、その他)
  • Visionファイルを他のファイルフォーマットに変換
  • 他のファイルフォーマットからVisionファイルを生成
  • データ変換とフォーマット変換をワンパスで実行

これらVisionファイルのフォーマットや操作を行う機能は、 同時に他のファイルフォーマットの処理を行わないようにできますが、 同時に他の処理を行うようにすることもできます。

目次に戻る

VSAM (Virtual Storage Access Method)ファイル

CoSortはClerity リホスト・プロジェクトのVSAM (Virtual Storage Access Method)をサポート

課題

VSAMレコードは固定長または可変長のレコードで、 ディスクのトラックやシリンダーのブロック・サイズより大きな固定長のバイト・ブロックから構成されています。 IMS/DBとDB2がVSAMを実装された筆頭で、そのデータ構造を使っています。 とはいえ、VSAMは他の多くのアプリケーションに適合していないので、 VSAMデータを処理できるだけでなく、 VSAMと他のファイルとを相互変換できるようなツールが必要になります。

解決策

VSAMファイルのサポートは次のような場合に有効です。CoSortを客先に導入して、そこでJCLソート・ソフトウェアからのソート・オペレーションをリホストするために、 ClerityのUniKix BPE とTPEソフトウェアを使用しているような場合です。CoSort のSortCL ツールは、MBM環境でのVSAMファイルの照合、タイプ変換、作成 を目的とするとき/PROCESSステートメント(すなわちファイルフォーマットの指定)で VSAMを指定します。
もしClerityソフトウェアを使わずにVSAMファイル変換が必要ならば、netConvertツールをご検討ください。netConvertは直接これらの拡張データで保存されたものを読んだり、書き込みしたりすることが可能で、ファイル・タイプ変換を単純化することができます。netConvertはIRIの製品です。

目次に戻る

大規模なXMLファイルの処理

大規模XMLファイルの高速処理およびタイプ変換

課題

XMLを介してのファイル交換はファイル相互交換フォーマットとしてますます一般的になっていますが、 これまで大規模ファイルには実用的ではありませんでした。 レガシー・インデックス・ファイルやフラット・ファイルからXMLへの変換 ――XMLからフラット・ファイルへの変換――は、 XSLTのような時間のかかる構文解析テクノロジーに依存し、同時処理が可能ではありません。 XQueryを使用するデータ変換は、大量のXMLデータをXML(または他のフォーマット)に変換したとしても、 迅速に意味のある情報に変換することができません。 とにかくこれまではXMLで迅速に大型トランザクション・ファイルを変換、処理、保護、 作成する効果的な方法がありませんでした。
XML操作が必要な想定される処理は、次のような処理です。

  • 巨大なXMLファイルのソート
  • XMLファイルからのデータ抽出やレポート作成
  • CSV、LDIF、ISAM、または他のフラット・ファイルをXMLに変換
  • XMLをテキスト、CSV、LDIF、ISAM、または他のフォーマットに変換
  • XMLファイルのフィールドを暗号化または識別不能化する
  • XMLデータを表計算やデータベースにロード
  • レガシーまたは抽出したファイルからXMLファイルを生成

これらの処理の1つ以上が同時に必要になる場合もあるし、 大量の入力ソースや出力ターゲットが必要になる場合もあります。

解決策

CoSortのソート・コントロール言語(SortCL)ツールで、 簡単に正しくフォーマットされたXMLファイルからタイプ変換、データ変換、レポート作成を行い、 逆にXMLファイルを生成することもできます。 また、作成されたファイルはどれほど大きなファイルであっても構造的な形式で出力が可能です。 SortCLジョブ・スクリプトでは、入力・出力ファイルの定義のどちらか、 または両方の直下で/PROCESS=XMLと定義して、使い慣れたXDEFフォーマットでフィールドの記述を行います。
実際、以下のデータ処理を含むCoSort SortCLのどのプログラムの入力および出力部ででも、 1つ以上のXMLおよび非XMLのファイルを宣言することができます。

  • データ処理(レコード選択/フィルタリング、データ変換、ソート、タイプ変換)
  • データ出力(デルタ、CRM、サマリーのレポート作成)
  • データ保護(フィールドレベルの暗号化、マスキング、識別不能化)
  • プロトタイピング(安全なテストデータ、ファイルの生成)

これらすべての機能は、1つ以上を同時に実行することが可能で、 ファイルフォーマットとしてCSV、XML、LDIF、ISAM、Vision、ウェブログ、テキスト および他の大規模な構造化ファイルでデータ構築を行う必要のある人向けです。

目次に戻る

CLF (Common Log Format)

ウェブログにはウェブログのフォーマットがある

課題

NCSA Common およびW3C Extended Log Format (それぞれCLF、ELF)は、 ウェブサイト上のクリックストリーム動向のログ採集で使われている2つの代表的なログフォーマットです。 記録される訪問者情報にはIPアドレス、タイムスタンプ、ページのURL、入って来たページと出て行ったページなどがあります。 しかし、これらのログのサイズが増大すれば、処理に時間がかかることになります。 そして、そのフォーマットはお使いのアプリケーションで認識しない、 あるいはすぐにはサポートされないというケースもあるでしょう。

解決策

CoSortのSortCLツールは、これらの巨大なログファイルを処理し(フィルタリング、 ソート、ジョイン、集計、クレンジング、リフォーマットなど)、 保護して、CSV、LDIF、XML、テキスト、インデックス、 その他の構造化ファイルフォーマットに変換することができます。
変換のみのソリューションとして、新製品で低価格なファイルフォーマット移行ツール、 NextFormを利用することもできます。 NextForm は、CLFファイルをCSVや他のフラットファイルのフォーマットに変換することができます。
Common Log Format(CLF)を処理する手助けとなるように、 SortCLデータ定義ファイル(.ddf)のテンプレートを提供しています。

  • CLF_Access.ddf コモンまたはアクセス・ログファイル向け
  • CLF_Referral.ddf リファラー・ログファイル向け
  • CLF_Agent.ddf エージェント・ログファイル向け

各.ddfファイルは外部ファイルとして参照することができます。あるいは、フィールド・レイアウト・ステートメントはSortCLジョブ・スクリプト・ファイルに直接挿入します。そのジョブ・スクリプトが、どのようなデータ操作またはレポート作成を要求するものであっても直接挿入ができます。

目次に戻る

ELF (Extended Log Format)

W3C拡張ログ・フォーマットのウェブログを処理する

解決策

IRIではELFのファイル変換ツールを提供しています。CoSortとNextFormには、ELF2DDF(拡張ログ・フォーマットをSortCLデータ定義ファイルへ変換)というメタデータ変換ツールが含まれています。

ELFファイルの変換だけのソリューション

新製品の低価格なデータ移行ツール、NextFormがあります。 NextFormでELFから他のフォーマット(例:CSV、XML、テキストなど)へのファイル変換が可能です。 また、フィールド・タイプの変換やレコードレイアウトの変更などもサポートしています。 特筆すべきは、NextFormのファイル定義がSortCLでもメタデータとして再利用できる点です。 NextFormを導入後、CoSortの高速ファイル処理、カスタムレポート作成、 データ保護などを利用するために、CoSortへアップグレードした場合にそのまま利用可能です。

ELFファイル変換と処理

ELFファイルの操作、レポート作成、他のファイルとの統合、データ・ウェブハウスへのステージング、 といった処理はすべてCoSortデータ処理パッケージで可能で、それぞれ個別の処理においては、 パッケージに含まれるSortCL (Sort Control Language)のプログラムで処理します。
SortCLは、シンプルな4GL言語でログファイルのレイアウトと処理内容を定義したものを使って、 次のELFデータの処理を連結して実行します。

  • データ処理(スクラブ、ソート、ジョイン、グループ化)
  • データ変換(データタイプ、レコードレイアウト、ファイルフォーマット)
  • データ保護(フィールド暗号化、識別不能化)
  • レポート作成(カスタムの詳細、デルタとサマリ)

さらに、検証、パターンマッチング、カスタムタスクなどの処理も、 同じジョブ・スクリプト内の同じI/Oパスの中で実行します。 SortCLでさまざまなフォーマットの複数の入力ファイルのフィールドを、 複数の詳細レコードとサマリレポートのレイアウトにマッピングして、 フィルタリングしたサブセットをクリックストリームの分析ツールに手渡します。 ウェブログの変換と処理を行うために、 CoSortとNextFormの両製品にはELF2DDFというメタデータ変換ツールが含まれています。 これは、"Extended Log Format to Data Definition File"の意味です。 このユーティリティは、W3C ELFのウェブログからヘッダー情報を解析して、 SortCLデータ定義ファイル(.ddf)を作成します。 この定義ファイルは、NextFormのフォーマット変換や、SortCLのデータ処理、 RowGenのテストデータ生成のジョブ・スクリプトで、使用できます。

目次に戻る