PyTorch 提供了許多強大的圖像處理和數據增強功能,可以幫助您輕松地創建和處理復雜的訓練數據集。以下是一些常用的 PyTorch 圖像處理和數據增強技術:
transforms.Compose
transforms.Compose
是一個組合多個變換的函數,可以一次性應用多個預處理步驟。例如:
import torchvision.transforms as transforms
transform = transforms.Compose([
transforms.Resize((224, 224)),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
transforms.Resize
transforms.Resize
用于調整圖像大小。例如,將圖像調整為 224x224 像素:
transform = transforms.Compose([
transforms.Resize((224, 224))
])
transforms.RandomHorizontalFlip
transforms.RandomHorizontalFlip
用于隨機水平翻轉圖像。例如,以 0.5 的概率水平翻轉圖像:
transform = transforms.Compose([
transforms.RandomHorizontalFlip()
])
transforms.RandomRotation
transforms.RandomRotation
用于隨機旋轉圖像。例如,以 10 度的概率旋轉圖像:
transform = transforms.Compose([
transforms.RandomRotation(10)
])
transforms.ColorJitter
transforms.ColorJitter
用于隨機調整圖像的亮度、對比度、飽和度和色調。例如:
transform = transforms.Compose([
transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1)
])
transforms.ToTensor
transforms.ToTensor
用于將圖像從 PIL Image 轉換為 PyTorch 張量。例如:
transform = transforms.Compose([
transforms.ToTensor()
])
transforms.Normalize
transforms.Normalize
用于對圖像進行標準化處理。例如,將圖像的像素值縮放到 [0, 1] 范圍內并減去每個通道的平均值和標準差:
transform = transforms.Compose([
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
要在訓練數據集上應用這些變換,您可以使用 torchvision.datasets
中的數據集類,并將 transform
參數傳遞給數據集類。例如,對于 CIFAR-10 數據集:
import torchvision.datasets as datasets
train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)
這將創建一個包含預處理后的 CIFAR-10 圖像的數據加載器,可以用于訓練您的 PyTorch 模型。