argonne-lcf · annie-anna · May 6, 2025 · May 8, 2025 · May 8, 2025 · May 13, 2025
diff --git a/dlio_benchmark/data_generator/tf_generator.py b/dlio_benchmark/data_generator/tf_generator.py
@@ -77,6 +77,6 @@ def generate(self):
             filename = os.path.basename(out_path_spec)
             self.storage.create_node(index_folder, exist_ok=True)
             tfrecord_idx = f"{index_folder}/{filename}.idx"
-            if not os.path.isfile(tfrecord_idx):
-                call([tfrecord2idx_script, out_path_spec, tfrecord_idx])
+            if not self.storage.isfile(tfrecord_idx):
+                call([tfrecord2idx_script, out_path_spec, self.storage.get_uri(tfrecord_idx)])
         np.random.seed()
diff --git a/dlio_benchmark/framework/framework.py b/dlio_benchmark/framework/framework.py
@@ -105,3 +105,6 @@ def put_data(self, id, data, offset=None, length=None):
     def get_data(self, id, data, offset=None, length=None):
         return None
 
+    def isfile(self, id):
+        return False
+
diff --git a/dlio_benchmark/framework/tf_framework.py b/dlio_benchmark/framework/tf_framework.py
@@ -31,7 +31,9 @@
     DataLoaderType
 
 import tensorflow as tf
+import tensorflow_io as tfio
 from tensorflow.python.framework import errors
+import boto3
 
 tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR)
 
@@ -52,6 +54,9 @@ def __init__(self, profiling):
             else:
                 self.tensorboard = ProfilerFactory.get_profiler(Profiler.TENSORBOARD)
         self.reader_handler = None
+        self.s3 = boto3.client("s3", \
+                               endpoint_url=os.getenv('S3_ENDPOINT'), \
+                               region_name=os.getenv('AWS_REGION'))
 
     @dlp.log
     def init_loader(self, format_type, epoch=0, data_loader=None):
@@ -102,7 +107,7 @@ def is_nativeio_available(self):
 
     @dlp.log
     def create_node(self, id, exist_ok=False):
-        tf.io.gfile.mkdir(id)
+        tf.io.gfile.makedirs(id)
         return True
 
     @dlp.log
@@ -119,7 +124,24 @@ def get_node(self, id):
     def walk_node(self, id, use_pattern=False):
         try:
             if not use_pattern:
-                return tf.io.gfile.listdir(id)
+                # parse id to get bucket name and prefix
+                scheme_end = id.find('://') + 2
+                bucket_end = id.find('/', scheme_end + 1)
+                bucket = id[scheme_end + 1 : bucket_end]
+                prefix = id[bucket_end + 1 :]
+                if not prefix.endswith('/'):
+                    prefix = prefix + '/'
+
+                resp = []
+                paginator = self.s3.get_paginator('list_objects_v2')
+                pages = paginator.paginate(Bucket=bucket, Prefix=prefix, Delimiter='/')
+                for page in pages:
+                    if page['KeyCount'] == 0:
+                        continue
+                    for obj in page['Contents']:
+                        filename = obj['Key'].split('/')[-1]
+                        resp.append(filename)
+                return resp
             else:
                 return tf.io.gfile.glob(id)
         except errors.NotFoundError:
@@ -140,3 +162,7 @@ def get_data(self, id, data, offset=None, length=None):
         with tf.io.gfile.GFile(id, "r") as fd:
             data = fd.read()
         return data
+
+    @dlp.log
+    def isfile(self, id):
+        return tf.io.gfile.exists(id) and not tf.io.gfile.isdir(id)
diff --git a/dlio_benchmark/storage/file_storage.py b/dlio_benchmark/storage/file_storage.py
@@ -99,5 +99,9 @@ def get_data(self, id, data, offset=None, length=None):
             data = fd.read()
         return data
 
+    @dlp.log
+    def isfile(self, id):
+        return os.path.isfile(id)
+
     def get_basename(self, id):
         return os.path.basename(id)
diff --git a/dlio_benchmark/storage/s3_storage.py b/dlio_benchmark/storage/s3_storage.py
@@ -72,5 +72,9 @@ def put_data(self, id, data, offset=None, length=None):
     def get_data(self, id, data, offset=None, length=None):
         return super().get_data(self.get_uri(id), data, offset, length)
 
+    @dlp.log
+    def isfile(self, id):
+        return super().isfile(self.get_uri(id))
+
     def get_basename(self, id):
         return os.path.basename(id)
diff --git a/dlio_benchmark/storage/storage_handler.py b/dlio_benchmark/storage/storage_handler.py
@@ -123,3 +123,10 @@ def get_data(self, id, data, offset=None, length=None):
             return self.framework.get_data(id, data, offset, length)
         return None
 
+    def isfile(self, id):
+        """
+            This method checks if the given path is a file
+        """
+        if self.is_framework_nativeio_available:
+            return self.framework.isfile(id)
+        return None
diff --git a/requirements.txt b/requirements.txt
@@ -12,7 +12,9 @@ pandas>=1.5.1
 psutil>=5.9.8
 pydftracer==1.0.11
 pytest
-tensorflow>=2.11.0
+tensorflow==2.13.1
+tensorflow_io==0.33.0
 torch>=2.2.0
 torchaudio
 torchvision
+boto3
diff --git a/setup.py b/setup.py
@@ -17,11 +17,13 @@
     "omegaconf>=2.2.0",
     "pandas>=1.5.1",
     "psutil>=5.9.8",
+    "boto3",
 ]
 x86_deps = [
     f"hydra-core>={HYDRA_VERSION}",
     "nvidia-dali-cuda120>=1.34.0",
-    "tensorflow>=2.11.0",
+    "tensorflow==2.13.1",
+    "tensorflow_io==0.33.0",
     "torch>=2.2.0",
     "torchaudio",
     "torchvision",