docarray
diff --git a/‎docarray/__init__.py‎
Lines changed: 10 additions & 2 deletions b/‎docarray/__init__.py‎
Lines changed: 10 additions & 2 deletions
diff --git a/‎docarray/computation/abstract_comp_backend.py‎
Lines changed: 5 additions & 0 deletions b/‎docarray/computation/abstract_comp_backend.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎docarray/computation/numpy_backend.py‎
Lines changed: 4 additions & 0 deletions b/‎docarray/computation/numpy_backend.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎docarray/computation/torch_backend.py‎
Lines changed: 4 additions & 0 deletions b/‎docarray/computation/torch_backend.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎docarray/predefined_document/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎docarray/predefined_document/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎docarray/predefined_document/audio.py‎
Lines changed: 77 additions & 0 deletions b/‎docarray/predefined_document/audio.py‎
Lines changed: 77 additions & 0 deletions
diff --git a/‎docarray/proto/docarray.proto‎
Lines changed: 5 additions & 0 deletions b/‎docarray/proto/docarray.proto‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎docarray/proto/pb2/docarray_pb2.py‎
Lines changed: 14 additions & 14 deletions b/‎docarray/proto/pb2/docarray_pb2.py‎
Lines changed: 14 additions & 14 deletions
diff --git a/‎docarray/typing/__init__.py‎
Lines changed: 13 additions & 2 deletions b/‎docarray/typing/__init__.py‎
Lines changed: 13 additions & 2 deletions
diff --git a/‎docarray/typing/tensor/abstract_tensor.py‎
Lines changed: 1 addition & 0 deletions b/‎docarray/typing/tensor/abstract_tensor.py‎
Lines changed: 1 addition & 0 deletions
@@ -2,6 +2,14 @@
 
 from docarray.array.array import DocumentArray
 from docarray.document.document import BaseDocument
-from docarray.predefined_document import Image, Mesh3D, PointCloud3D, Text
+from docarray.predefined_document import Audio, Image, Mesh3D, PointCloud3D, Text
 
-__all__ = ['BaseDocument', 'DocumentArray', 'Image', 'Text', 'Mesh3D', 'PointCloud3D']
+__all__ = [
+    'BaseDocument',
+    'DocumentArray',
+    'Image',
+    'Audio',
+    'Text',
+    'Mesh3D',
+    'PointCloud3D',
+]
@@ -26,6 +26,11 @@ def stack(
         """
         ...
 
+    @staticmethod
+    @abstractmethod
+    def n_dim(array: 'TTensor') -> int:
+        ...
+
     class Retrieval(ABC, typing.Generic[TTensorRetrieval]):
         """
         Abstract class for retrieval and ranking functionalities
 
@@ -40,6 +40,10 @@ def stack(
     ) -> 'np.ndarray':
         return np.stack(tensors, axis=dim)
 
+    @staticmethod
+    def n_dim(array: 'np.ndarray') -> int:
+        return array.ndim
+
     class Retrieval(AbstractComputationalBackend.Retrieval[np.ndarray]):
         """
         Abstract class for retrieval and ranking functionalities
 
@@ -39,6 +39,10 @@ def stack(
     ) -> 'torch.Tensor':
         return torch.stack(tensors, dim=dim)
 
+    @staticmethod
+    def n_dim(array: 'torch.Tensor') -> int:
+        return array.ndim
+
     class Retrieval(AbstractComputationalBackend.Retrieval[torch.Tensor]):
         """
         Abstract class for retrieval and ranking functionalities
 
@@ -1,6 +1,7 @@
+from docarray.predefined_document.audio import Audio
 from docarray.predefined_document.image import Image
 from docarray.predefined_document.mesh import Mesh3D
 from docarray.predefined_document.point_cloud import PointCloud3D
 from docarray.predefined_document.text import Text
 
-__all__ = ['Text', 'Image', 'Mesh3D', 'PointCloud3D']
+__all__ = ['Text', 'Image', 'Audio', 'Mesh3D', 'PointCloud3D']
@@ -0,0 +1,77 @@
+from typing import Optional, TypeVar
+
+from docarray.document import BaseDocument
+from docarray.typing import AudioUrl, Embedding
+from docarray.typing.tensor.audio.audio_tensor import AudioTensor
+
+T = TypeVar('T', bound='Audio')
+
+
+class Audio(BaseDocument):
+    """
+    Document for handling audios.
+
+    The Audio Document can contain an AudioUrl (`Audio.url`), an AudioTensor
+    (`Audio.tensor`), and an Embedding (`Audio.embedding`).
+
+    EXAMPLE USAGE:
+
+    You can use this Document directly:
+
+    .. code-block:: python
+
+        from docarray import Audio
+
+        # use it directly
+        audio = Audio(
+            url='https://github.com/docarray/docarray/tree/feat-add-audio-v2/tests/toydata/hello.wav?raw=true'
+        )
+        audio.tensor = audio.url.load()
+        model = MyEmbeddingModel()
+        audio.embedding = model(audio.tensor)
+
+    You can extend this Document:
+
+    .. code-block:: python
+
+        from docarray import Audio, Text
+        from typing import Optional
+
+        # extend it
+        class MyAudio(Audio):
+            name: Optional[Text]
+
+
+        audio = MyAudio(
+            url='https://github.com/docarray/docarray/tree/feat-add-audio-v2/tests/toydata/hello.wav?raw=true'
+        )
+        audio.tensor = audio.url.load()
+        model = MyEmbeddingModel()
+        audio.embedding = model(audio.tensor)
+        audio.name = 'my first audio'
+
+
+    You can use this Document for composition:
+
+    .. code-block:: python
+
+        from docarray import Document, Audio, Text
+
+        # compose it
+        class MultiModalDoc(Document):
+            audio: Audio
+            text: Text
+
+
+        mmdoc = MultiModalDoc(
+            audio=Audio(
+                url='https://github.com/docarray/docarray/tree/feat-add-audio-v2/tests/toydata/hello.wav?raw=true'
+            ),
+            text=Text(text='hello world, how are you doing?'),
+        )
+        mmdoc.audio.tensor = mmdoc.audio.url.load()
+    """
+
+    url: Optional[AudioUrl]
+    tensor: Optional[AudioTensor]
+    embedding: Optional[Embedding]
@@ -63,6 +63,11 @@ message NodeProto {
 
     string point_cloud_url = 13;
 
+    string audio_url = 14;
+
+    NdArrayProto audio_ndarray = 15;
+
+    NdArrayProto audio_torch_tensor = 16;
 
   }
 
 
@@ -1,13 +1,23 @@
 from docarray.typing.id import ID
+from docarray.typing.tensor.audio import AudioNdArray
 from docarray.typing.tensor.embedding.embedding import Embedding
 from docarray.typing.tensor.ndarray import NdArray
 from docarray.typing.tensor.tensor import AnyTensor
-from docarray.typing.url import AnyUrl, ImageUrl, Mesh3DUrl, PointCloud3DUrl, TextUrl
+from docarray.typing.url import (
+    AnyUrl,
+    AudioUrl,
+    ImageUrl,
+    Mesh3DUrl,
+    PointCloud3DUrl,
+    TextUrl,
+)
 
 __all__ = [
+    'AudioNdArray',
     'NdArray',
     'Embedding',
     'ImageUrl',
+    'AudioUrl',
     'TextUrl',
     'Mesh3DUrl',
     'PointCloud3DUrl',
@@ -22,5 +32,6 @@
     pass
 else:
     from docarray.typing.tensor import TorchEmbedding, TorchTensor  # noqa: F401
+    from docarray.typing.tensor.audio.audio_torch_tensor import AudioTorchTensor  # noqa
 
-    __all__.extend(['TorchEmbedding', 'TorchTensor'])
+    __all__.extend(['AudioTorchTensor', 'TorchEmbedding', 'TorchTensor'])
@@ -16,6 +16,7 @@
 class AbstractTensor(AbstractType, Generic[ShapeT], ABC):
 
     __parametrized_meta__ = type
+    _PROTO_FIELD_NAME: str
 
     @classmethod
     @abc.abstractmethod
Original file line number	Diff line number	Diff line change
`@@ -63,6 +63,11 @@ message NodeProto {`
`63`	`63`
`64`	`64`	`string point_cloud_url = 13;`
`65`	`65`
	`66`	`+ string audio_url = 14;`
	`67`	`+`
	`68`	`+ NdArrayProto audio_ndarray = 15;`
	`69`	`+`
	`70`	`+ NdArrayProto audio_torch_tensor = 16;`
`66`	`71`
`67`	`72`	`}`
`68`	`73`