Add simplification pattern to tm_tensor to linalg conversion

Attempts to compute whether or not each dimension in a tm_tensor.npbroadcast op is either broadcasted or not. If all dims are not broadcasted and the input and output ranks match, then the op is folded away, else it generates a linalg style broadcast.
2023-08-26 21:03:16 -04:00 · 2023-08-26 21:03:16 -04:00 · 7c2e5031b9
parent a7f506adc4
commit 7c2e5031b9
1 changed files with 87 additions and 6 deletions
--- a/externals/llvm-external-projects/torch-mlir-dialects/lib/Dialect/TMTensor/Transforms/ConvertBroadcastToLinalg.cpp
+++ b/externals/llvm-external-projects/torch-mlir-dialects/lib/Dialect/TMTensor/Transforms/ConvertBroadcastToLinalg.cpp
@ -13,6 +13,7 @@
 #include "mlir/Dialect/Tensor/IR/Tensor.h"
 #include "mlir/IR/BuiltinTypes.h"
 #include "mlir/IR/PatternMatch.h"
 #include "mlir/Interfaces/ValueBoundsOpInterface.h"
 #include "mlir/Pass/Pass.h"
 #include "mlir/Transforms/GreedyPatternRewriteDriver.h"
 #include "torch-mlir-dialects/Dialect/TMTensor/IR/TMTensorDialect.h"
@ -26,7 +27,76 @@
 using namespace mlir;
 using namespace mlir::torch::TMTensor;
-/// Pattern rewriter hook to lower a `ScalarLoopOpInterface` to loops.
+namespace {
 class SimplifyNumpyBroadcast : public OpRewritePattern<NumpyBroadcastOp> {
 public:
  using OpRewritePattern::OpRewritePattern;
  LogicalResult matchAndRewrite(NumpyBroadcastOp broadcastOp,
                                PatternRewriter &rewriter) const override {
    Location loc = broadcastOp.getLoc();
    Value input = broadcastOp.getInput();
    Value output = broadcastOp.getOutput();
    auto inputType = input.getType().cast<RankedTensorType>();
    auto outputType = output.getType().cast<RankedTensorType>();
    int64_t inputRank = inputType.getRank();
    int64_t outputRank = outputType.getRank();
    int64_t diff = outputRank - inputRank;
    Value oneIndex =
        rewriter.create<arith::ConstantOp>(loc, rewriter.getIndexAttr(1));
    SmallVector<bool> broadcastedStatus;
    for (int64_t i = 0, e = inputRank; i < e; ++i) {
      FailureOr<bool> dimsEqual =
          ValueBoundsConstraintSet::areEqual(input, output, i, i + diff);
      if (succeeded(dimsEqual) && *dimsEqual) {
        broadcastedStatus.push_back(false);
        continue;
      }
      FailureOr<bool> isUnit =
          ValueBoundsConstraintSet::areEqual(input, oneIndex, i, std::nullopt);
      if (succeeded(isUnit) || *isUnit) {
        broadcastedStatus.push_back(true);
        continue;
      }
      // Unable to statically bound all input dims to a broadcast status; bail.
      return failure();
    }
    // If no dims are broadcasted and the rank doesn't change, we can just fold
    // the op away entirely.
    if (!llvm::any_of(broadcastedStatus, [](bool b) { return b; }) &&
        inputRank == outputRank) {
      rewriter.replaceOpWithNewOp<tensor::CastOp>(
          broadcastOp, broadcastOp.getResult(0).getType(), input);
      return success();
    }
    SmallVector<AffineExpr> inputExprs;
    for (int64_t i = 0, e = inputRank; i < e; ++i) {
      if (broadcastedStatus[i]) {
        inputExprs.push_back(rewriter.getAffineConstantExpr(0));
        continue;
      }
      inputExprs.push_back(rewriter.getAffineDimExpr(i + diff));
    }
    SmallVector<AffineMap> indexingMaps = {
        AffineMap::get(outputRank, 0, inputExprs, broadcastOp.getContext()),
        rewriter.getMultiDimIdentityMap(outputRank)};
    SmallVector<utils::IteratorType> iteratorTypes(
        outputRank, utils::IteratorType::parallel);
    rewriter.replaceOpWithNewOp<linalg::GenericOp>(
        broadcastOp, output.getType(), input, output, indexingMaps,
        iteratorTypes, [&](OpBuilder &b, Location loc, ValueRange args) {
          b.create<linalg::YieldOp>(loc, args[0]);
        });
    return success();
  }
 };
 } // namespace
 /// Pattern rewriter hook to lower a `tm_tensor.npbroadcast` to linalg.
 namespace {
 class LowerNumpyBroadcastToLinalg : public OpRewritePattern<NumpyBroadcastOp> {
 public:
@ -106,6 +176,16 @@ struct TMTensorBroadcastToLinalgPass
  void runOnOperation() override {
    MLIRContext *context = &getContext();
    {
      RewritePatternSet patterns(context);
      patterns.insert<SimplifyNumpyBroadcast>(context);
      if (failed(applyPatternsAndFoldGreedily(getOperation(),
                                              std::move(patterns)))) {
        return signalPassFailure();
      }
    }
    {
      RewritePatternSet patterns(context);
      patterns.insert<LowerNumpyBroadcastToLinalg>(context);
      if (failed(applyPatternsAndFoldGreedily(getOperation(),
@ -113,6 +193,7 @@ struct TMTensorBroadcastToLinalgPass
        return signalPassFailure();
      }
    }
  }
 };
 } // namespace