2022.05.31 コラム
Treasure Data CDPを活用したOneID(統合ID)構築4 日付の落とし穴
● はじめに
本シリーズでは、Treasure Data CDPを用いて様々なデータソースに点在する企業保有の顧客データを統合し共通のIDで管理する「OneID(統合ID)構築」の取り組みについてご紹介させていただきます。
第四回目となる本記事では、OneID構築をするうえで、情報の更新などがあった際に日付情報を利用する場合の落とし穴、注意点についてご共有させていただきます。
〇第一回目の記事はこちら
https://www.datacurrent.co.jp/column/cdp_one_id_20220225/
〇第二回目の記事はこちら
https://www.datacurrent.co.jp/column/cdp_one_id_20220331/
〇第三回目の記事はこちら
https://www.datacurrent.co.jp/column/cdp_one_id_20220428/
● 目次
・OneID構築における日付情報
・日付の落とし穴1:データソースごとのタイムゾーンの違い
・日付の落とし穴2:日付表記の違いによる順序関係
・まとめ
● OneID構築における日付情報
顧客情報を管理し統合する「OneID構築」の取り組みでは、一度顧客情報を処理すれば終わり、というわけではなく、日々追加され更新されていく顧客情報を取り込み、常に最新の状態に保っておく必要があります。
追加された顧客情報を既存の情報と統合し、適切に最新の状態に更新するためには、その情報がいつ取得されたものなのかを判別するための日付情報が重要となります。
データが取得された日付や時間の情報をもとに、どのデータが最新のものであるかを判別、新たなデータとして更新していくのですが、この日付の扱いを適切に行わないと、意図通りにデータが更新されないといった事象が起こりえます。
今回はそうした不都合が生じてしまう、日付を扱う上での「落とし穴」を、二つご紹介いたします。
・日付の落とし穴1:データソースごとのタイムゾーンの違い
最新の顧客情報を判別するために、まず注意しなければならない点は、「日付のタイムゾーンが一致しているかどうか」という点になります。タイムゾーンが異なっている場合、日付の前後関係がいれかわってしまい、意図しない情報が最新となってしまうことが考えられるためです。
たとえば、システムAではデータを担当者手動で更新し、更新時間が日本時間の日付(JST)で入っている一方、システムBではログデータとしてデータが自動取得され、更新時間はUnixtimeで入ってくるものを単純に日付(UTC)に変換している、といったようなケースです。
このようなケースの場合、二つのデータの時間差によっては前後関係が入れ替わってしまうため、荒梶データを確認したうえで、どちらかのタイムゾーンに統一するようデータを変換したうえで比較する必要があります。
● 日付の落とし穴2:日付表記の違いによる順序関係
もう一つ、システム間での日付の違いで注意しなければならないのは、日付の表記形式です。
たとえば、システムAでは日付の表記が「2022-10-01」のように月日が0埋めの二けたで記載されているのに対し、システムBでは「2022-8-15」のように月日が0埋めなしの一桁もしくは二桁で表記されている、といったケースです。
このケースの場合で、「日付を二つ降順に並べ替えて一番上をとる=最新」という処理を行った場合、本来上にくるシステムAではなくシステムBの行が最新として判別されてしまいます。
この例のように、システム間で日付の表記方法が異なっている場合、意図した順序と異なるデータの並びとなり、最新のデータを取り違えてしまう原因となります。
適切に最新のデータを選び取るために、あらかじめ各データの日付の表記方法を確認し、型を統一することが重要です。
日付の表記を変換するサンプルのクエリは下記の通りとなります。(実行環境はTreasureData)
● まとめ
今回はOneID構築において日付を用いる場合の注意点についてご共有いたしました。
弊社では、新規データソースの連携方法の整理や実際の連携作業、開発といったことから、既に連携しているデータのトラブル、ご相談まで幅広くサポートしています。お困りごとございましたらお気軽にご相談ください。
〇第一回目の記事はこちら
https://www.datacurrent.co.jp/column/cdp_one_id_20220225/
〇第二回目の記事はこちら
https://www.datacurrent.co.jp/column/cdp_one_id_20220331/
〇第三回目の記事はこちら
https://www.datacurrent.co.jp/column/cdp_one_id_20220428/
●関連サービス
》CDP総合支援サービス ~構想・構築・活用~ のサービス資料はこちら
本件に関するお問い合わせは下記にて承ります。
株式会社DataCurrent
info@datacurrent.co.jp