doxygen/4.0/mpegvideo__msa_8c_source.html

 /*

  * Copyright (c) 2015 Manojkumar Bhosale (Manojkumar.Bhosale@imgtec.com)

  *

  * This file is part of FFmpeg.

  *

  * FFmpeg is free software; you can redistribute it and/or

  * modify it under the terms of the GNU Lesser General Public

  * License as published by the Free Software Foundation; either

  * version 2.1 of the License, or (at your option) any later version.

  *

  * FFmpeg is distributed in the hope that it will be useful,

  * but WITHOUT ANY WARRANTY; without even the implied warranty of

  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU

  * Lesser General Public License for more details.

  *

  * You should have received a copy of the GNU Lesser General Public

  * License along with FFmpeg; if not, write to the Free Software

  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA

  */


 #include "libavutil/mips/generic_macros_msa.h"

 #include "h263dsp_mips.h"


 static void h263_dct_unquantize_msa(int16_t *block, int16_t qmul,

                                     int16_t qadd, int8_t n_coeffs,

                                     uint8_t loop_start)

 {

     int16_t *block_dup = block;

     int32_t level, cnt;

     v8i16 block_vec, qmul_vec, qadd_vec, sub;

     v8i16 add, mask, mul, zero_mask;


     qmul_vec = __msa_fill_h(qmul);

     qadd_vec = __msa_fill_h(qadd);

     for (cnt = 0; cnt < (n_coeffs >> 3); cnt++) {

         block_vec = LD_SH(block_dup + loop_start);

         mask = __msa_clti_s_h(block_vec, 0);

         zero_mask = __msa_ceqi_h(block_vec, 0);

         mul = block_vec * qmul_vec;

         sub = mul - qadd_vec;

         add = mul + qadd_vec;

         add = (v8i16) __msa_bmnz_v((v16u8) add, (v16u8) sub, (v16u8) mask);

         block_vec = (v8i16) __msa_bmnz_v((v16u8) add, (v16u8) block_vec,

                                          (v16u8) zero_mask);

         ST_SH(block_vec, block_dup + loop_start);

         block_dup += 8;

     }


     cnt = ((n_coeffs >> 3) * 8) + loop_start;


     for (; cnt <= n_coeffs; cnt++) {

         level = block[cnt];

         if (level) {

             if (level < 0) {

                 level = level * qmul - qadd;

             } else {

                 level = level * qmul + qadd;

             }

             block[cnt] = level;

         }

     }

 }


 static int32_t mpeg2_dct_unquantize_inter_msa(int16_t *block,

                                               int32_t qscale,

                                               const int16_t *quant_matrix)

 {

     int32_t cnt, sum_res = -1;

     v8i16 block_vec, block_neg, qscale_vec, mask;

     v8i16 block_org0, block_org1, block_org2, block_org3;

     v8i16 quant_m0, quant_m1, quant_m2, quant_m3;

     v8i16 sum, mul, zero_mask;

     v4i32 mul_vec, qscale_l, qscale_r, quant_m_r, quant_m_l;

     v4i32 block_l, block_r, sad;


     qscale_vec = __msa_fill_h(qscale);

     for (cnt = 0; cnt < 2; cnt++) {

         LD_SH4(block, 8, block_org0, block_org1, block_org2, block_org3);

         LD_SH4(quant_matrix, 8, quant_m0, quant_m1, quant_m2, quant_m3);

         mask = __msa_clti_s_h(block_org0, 0);

         zero_mask = __msa_ceqi_h(block_org0, 0);

         block_neg = -block_org0;

         block_vec = (v8i16) __msa_bmnz_v((v16u8) block_org0, (v16u8) block_neg,

                                          (v16u8) mask);

         block_vec <<= 1;

         block_vec += 1;

         UNPCK_SH_SW(block_vec, block_r, block_l);

         UNPCK_SH_SW(qscale_vec, qscale_r, qscale_l);

         UNPCK_SH_SW(quant_m0, quant_m_r, quant_m_l);

         mul_vec = block_l * qscale_l;

         mul_vec *= quant_m_l;

         block_l = mul_vec >> 4;

         mul_vec = block_r * qscale_r;

         mul_vec *= quant_m_r;

         block_r = mul_vec >> 4;

         mul = (v8i16) __msa_pckev_h((v8i16) block_l, (v8i16) block_r);

         block_neg = - mul;

         sum = (v8i16) __msa_bmnz_v((v16u8) mul, (v16u8) block_neg,

                                    (v16u8) mask);

         sum = (v8i16) __msa_bmnz_v((v16u8) sum, (v16u8) block_org0,

                                    (v16u8) zero_mask);

         ST_SH(sum, block);

         block += 8;

         quant_matrix += 8;

         sad = __msa_hadd_s_w(sum, sum);

         sum_res += HADD_SW_S32(sad);

         mask = __msa_clti_s_h(block_org1, 0);

         zero_mask = __msa_ceqi_h(block_org1, 0);

         block_neg = - block_org1;

         block_vec = (v8i16) __msa_bmnz_v((v16u8) block_org1, (v16u8) block_neg,

                                          (v16u8) mask);

         block_vec <<= 1;

         block_vec += 1;

         UNPCK_SH_SW(block_vec, block_r, block_l);

         UNPCK_SH_SW(qscale_vec, qscale_r, qscale_l);

         UNPCK_SH_SW(quant_m1, quant_m_r, quant_m_l);

         mul_vec = block_l * qscale_l;

         mul_vec *= quant_m_l;

         block_l = mul_vec >> 4;

         mul_vec = block_r * qscale_r;

         mul_vec *= quant_m_r;

         block_r = mul_vec >> 4;

         mul = __msa_pckev_h((v8i16) block_l, (v8i16) block_r);

         block_neg = - mul;

         sum = (v8i16) __msa_bmnz_v((v16u8) mul, (v16u8) block_neg,

                                    (v16u8) mask);

         sum = (v8i16) __msa_bmnz_v((v16u8) sum, (v16u8) block_org1,

                                    (v16u8) zero_mask);

         ST_SH(sum, block);


         block += 8;

         quant_matrix += 8;

         sad = __msa_hadd_s_w(sum, sum);

         sum_res += HADD_SW_S32(sad);

         mask = __msa_clti_s_h(block_org2, 0);

         zero_mask = __msa_ceqi_h(block_org2, 0);

         block_neg = - block_org2;

         block_vec = (v8i16) __msa_bmnz_v((v16u8) block_org2, (v16u8) block_neg,

                                          (v16u8) mask);

         block_vec <<= 1;

         block_vec += 1;

         UNPCK_SH_SW(block_vec, block_r, block_l);

         UNPCK_SH_SW(qscale_vec, qscale_r, qscale_l);

         UNPCK_SH_SW(quant_m2, quant_m_r, quant_m_l);

         mul_vec = block_l * qscale_l;

         mul_vec *= quant_m_l;

         block_l = mul_vec >> 4;

         mul_vec = block_r * qscale_r;

         mul_vec *= quant_m_r;

         block_r = mul_vec >> 4;

         mul = __msa_pckev_h((v8i16) block_l, (v8i16) block_r);

         block_neg = - mul;

         sum = (v8i16) __msa_bmnz_v((v16u8) mul, (v16u8) block_neg,

                                    (v16u8) mask);

         sum = (v8i16) __msa_bmnz_v((v16u8) sum, (v16u8) block_org2,

                                    (v16u8) zero_mask);

         ST_SH(sum, block);


         block += 8;

         quant_matrix += 8;

         sad = __msa_hadd_s_w(sum, sum);

         sum_res += HADD_SW_S32(sad);

         mask = __msa_clti_s_h(block_org3, 0);

         zero_mask = __msa_ceqi_h(block_org3, 0);

         block_neg = - block_org3;

         block_vec = (v8i16) __msa_bmnz_v((v16u8) block_org3, (v16u8) block_neg,

                                          (v16u8) mask);

         block_vec <<= 1;

         block_vec += 1;

         UNPCK_SH_SW(block_vec, block_r, block_l);

         UNPCK_SH_SW(qscale_vec, qscale_r, qscale_l);

         UNPCK_SH_SW(quant_m3, quant_m_r, quant_m_l);

         mul_vec = block_l * qscale_l;

         mul_vec *= quant_m_l;

         block_l = mul_vec >> 4;

         mul_vec = block_r * qscale_r;

         mul_vec *= quant_m_r;

         block_r = mul_vec >> 4;

         mul = __msa_pckev_h((v8i16) block_l, (v8i16) block_r);

         block_neg = - mul;

         sum = (v8i16) __msa_bmnz_v((v16u8) mul, (v16u8) block_neg,

                                    (v16u8) mask);

         sum = (v8i16) __msa_bmnz_v((v16u8) sum, (v16u8) block_org3,

                                    (v16u8) zero_mask);

         ST_SH(sum, block);


         block += 8;

         quant_matrix += 8;

         sad = __msa_hadd_s_w(sum, sum);

         sum_res += HADD_SW_S32(sad);

     }


     return sum_res;

 }


 void ff_dct_unquantize_h263_intra_msa(MpegEncContext *s,

                                       int16_t *block, int32_t index,

                                       int32_t qscale)

 {

     int32_t qmul, qadd;

     int32_t nCoeffs;


     av_assert2(s->block_last_index[index] >= 0 || s->h263_aic);


     qmul = qscale << 1;


     if (!s->h263_aic) {

         block[0] *= index < 4 ? s->y_dc_scale : s->c_dc_scale;

         qadd = (qscale - 1) | 1;

     } else {

         qadd = 0;

     }

     if (s->ac_pred)

         nCoeffs = 63;

     else

         nCoeffs = s->inter_scantable.raster_end[s->block_last_index[index]];


     h263_dct_unquantize_msa(block, qmul, qadd, nCoeffs, 1);

 }


 void ff_dct_unquantize_h263_inter_msa(MpegEncContext *s,

                                       int16_t *block, int32_t index,

                                       int32_t qscale)

 {

     int32_t qmul, qadd;

     int32_t nCoeffs;


     av_assert2(s->block_last_index[index] >= 0);


     qadd = (qscale - 1) | 1;

     qmul = qscale << 1;


     nCoeffs = s->inter_scantable.raster_end[s->block_last_index[index]];


     h263_dct_unquantize_msa(block, qmul, qadd, nCoeffs, 0);

 }


 void ff_dct_unquantize_mpeg2_inter_msa(MpegEncContext *s,

                                        int16_t *block, int32_t index,

                                        int32_t qscale)

 {

     const uint16_t *quant_matrix;

     int32_t sum = -1;


     quant_matrix = s->inter_matrix;


     sum = mpeg2_dct_unquantize_inter_msa(block, qscale, quant_matrix);


     block[63] ^= sum & 1;

 }

ff_dct_unquantize_h263_intra_msa
void ff_dct_unquantize_h263_intra_msa(MpegEncContext *s, int16_t *block, int32_t index, int32_t qscale)
Definition: mpegvideo_msa.c:196

s
const char * s
Definition: avisynth_c.h:768

ScanTable::raster_end
uint8_t raster_end[64]
Definition: idctdsp.h:34

MpegEncContext::h263_aic
int h263_aic
Advanced INTRA Coding (AIC)
Definition: mpegvideo.h:87

block
static int16_t block[64]
Definition: dct.c:115

uint8_t
uint8_t
Definition: audio_convert.c:194

av_assert2
#define av_assert2(cond)
assert() equivalent, that does lie in speed critical code.
Definition: avassert.h:64

MpegEncContext::c_dc_scale
int c_dc_scale
Definition: mpegvideo.h:84

LD_SH
#define LD_SH(...)
Definition: generic_macros_msa.h:34

mask
static const uint16_t mask[17]
Definition: lzw.c:38

mpeg2_dct_unquantize_inter_msa
static int32_t mpeg2_dct_unquantize_inter_msa(int16_t *block, int32_t qscale, const int16_t *quant_matrix)
Definition: mpegvideo_msa.c:64

generic_macros_msa.h

int32_t
int32_t
Definition: audio_convert.c:194

h263dsp_mips.h

MpegEncContext::block_last_index
int block_last_index[12]
last non zero coefficient in block
Definition: mpegvideo.h:86

ff_dct_unquantize_mpeg2_inter_msa
void ff_dct_unquantize_mpeg2_inter_msa(MpegEncContext *s, int16_t *block, int32_t index, int32_t qscale)
Definition: mpegvideo_msa.c:238

MpegEncContext::ac_pred
int ac_pred
Definition: mpegvideo.h:85

UNPCK_SH_SW
#define UNPCK_SH_SW(in, out0, out1)
Definition: generic_macros_msa.h:2342

MpegEncContext::inter_matrix
uint16_t inter_matrix[64]
Definition: mpegvideo.h:302

ff_dct_unquantize_h263_inter_msa
void ff_dct_unquantize_h263_inter_msa(MpegEncContext *s, int16_t *block, int32_t index, int32_t qscale)
Definition: mpegvideo_msa.c:221

ST_SH
#define ST_SH(...)
Definition: generic_macros_msa.h:42

index
int index
Definition: gxfenc.c:89

level
uint8_t level
Definition: svq3.c:207

MpegEncContext
MpegEncContext.
Definition: mpegvideo.h:81

LD_SH4
#define LD_SH4(...)
Definition: generic_macros_msa.h:296

MpegEncContext::y_dc_scale
int y_dc_scale
Definition: mpegvideo.h:84

MpegEncContext::inter_scantable
ScanTable inter_scantable
if inter == intra then intra should be used to reduce the cache usage
Definition: mpegvideo.h:90

h263_dct_unquantize_msa
static void h263_dct_unquantize_msa(int16_t *block, int16_t qmul, int16_t qadd, int8_t n_coeffs, uint8_t loop_start)
Definition: mpegvideo_msa.c:24

HADD_SW_S32
#define HADD_SW_S32(in)
Definition: generic_macros_msa.h:1117