a101f8588a
Signed-off-by: Rafael Ravedutti <rafaelravedutti@gmail.com>
139 lines
8.7 KiB
Plaintext
139 lines
8.7 KiB
Plaintext
|
|
[0] Code Region
|
|
|
|
Iterations: 100
|
|
Instructions: 4700
|
|
Total Cycles: 2286
|
|
Total uOps: 5400
|
|
|
|
Dispatch Width: 6
|
|
uOps Per Cycle: 2.36
|
|
IPC: 2.06
|
|
Block RThroughput: 16.0
|
|
|
|
|
|
Instruction Info:
|
|
[1]: #uOps
|
|
[2]: Latency
|
|
[3]: RThroughput
|
|
[4]: MayLoad
|
|
[5]: MayStore
|
|
[6]: HasSideEffects (U)
|
|
|
|
[1] [2] [3] [4] [5] [6] Instructions:
|
|
1 5 0.50 * movslq (%rsi,%rdx,4), %rdi
|
|
1 1 0.50 leaq (%rdi,%rdi,2), %rdi
|
|
1 1 0.50 shlq $5, %rdi
|
|
2 8 0.50 * vmovupd (%rcx,%rdi), %zmm16
|
|
2 8 0.50 * vinsertf64x4 $1, (%rcx,%rdi), %zmm16, %zmm17
|
|
2 8 0.50 * vbroadcastf64x4 64(%rcx,%rdi), %zmm18
|
|
1 3 1.00 vshuff64x2 $238, %zmm16, %zmm16, %zmm16
|
|
1 4 0.50 vsubps %zmm17, %zmm6, %zmm19
|
|
1 4 0.50 vsubps %zmm16, %zmm10, %zmm20
|
|
1 4 0.50 vsubps %zmm18, %zmm12, %zmm21
|
|
1 4 0.50 vsubps %zmm17, %zmm9, %zmm17
|
|
1 4 0.50 vsubps %zmm18, %zmm14, %zmm18
|
|
1 4 0.50 vsubps %zmm16, %zmm11, %zmm16
|
|
1 4 0.50 vmulps %zmm21, %zmm21, %zmm22
|
|
1 4 0.50 vfmadd231ps %zmm20, %zmm20, %zmm22
|
|
1 4 0.50 vfmadd231ps %zmm19, %zmm19, %zmm22
|
|
1 4 0.50 vmulps %zmm18, %zmm18, %zmm23
|
|
1 4 0.50 vfmadd231ps %zmm16, %zmm16, %zmm23
|
|
1 4 0.50 vfmadd231ps %zmm17, %zmm17, %zmm23
|
|
3 4 2.00 vrcp14ps %zmm22, %zmm24
|
|
3 4 2.00 vrcp14ps %zmm23, %zmm25
|
|
1 4 1.00 vcmpltps %zmm0, %zmm22, %k2
|
|
1 4 1.00 vcmpltps %zmm0, %zmm23, %k1
|
|
1 4 0.50 vmulps %zmm29, %zmm24, %zmm22
|
|
1 4 0.50 vmulps %zmm24, %zmm24, %zmm23
|
|
1 4 0.50 vmulps %zmm29, %zmm25, %zmm26
|
|
1 4 0.50 vmulps %zmm22, %zmm23, %zmm22
|
|
1 4 0.50 vmulps %zmm25, %zmm25, %zmm23
|
|
1 4 0.50 vmulps %zmm26, %zmm23, %zmm23
|
|
1 4 0.50 vaddps %zmm2, %zmm22, %zmm26
|
|
1 4 0.50 vmulps %zmm24, %zmm1, %zmm24
|
|
1 4 0.50 vmulps %zmm22, %zmm24, %zmm22
|
|
1 4 0.50 vmulps %zmm26, %zmm22, %zmm22
|
|
1 4 0.50 vaddps %zmm2, %zmm23, %zmm24
|
|
1 4 0.50 vmulps %zmm25, %zmm1, %zmm25
|
|
1 4 0.50 vmulps %zmm23, %zmm25, %zmm23
|
|
1 4 0.50 vmulps %zmm24, %zmm23, %zmm23
|
|
1 4 0.50 vfmadd231ps %zmm19, %zmm22, %zmm13 {%k2}
|
|
1 4 0.50 vfmadd231ps %zmm20, %zmm22, %zmm8 {%k2}
|
|
1 4 0.50 vfmadd231ps %zmm21, %zmm22, %zmm5 {%k2}
|
|
1 4 0.50 vfmadd231ps %zmm17, %zmm23, %zmm15 {%k1}
|
|
1 4 0.50 vfmadd231ps %zmm16, %zmm23, %zmm7 {%k1}
|
|
1 4 0.50 vfmadd231ps %zmm18, %zmm23, %zmm4 {%k1}
|
|
1 1 0.25 incq %rdx
|
|
1 1 0.25 cmpq %rdx, %r12
|
|
1 1 0.50 jne .LBB2_11
|
|
1 1 0.50 jmp .LBB2_12
|
|
|
|
|
|
Resources:
|
|
[0] - SKXDivider
|
|
[1] - SKXFPDivider
|
|
[2] - SKXPort0
|
|
[3] - SKXPort1
|
|
[4] - SKXPort2
|
|
[5] - SKXPort3
|
|
[6] - SKXPort4
|
|
[7] - SKXPort5
|
|
[8] - SKXPort6
|
|
[9] - SKXPort7
|
|
|
|
|
|
Resource pressure per iteration:
|
|
[0] [1] [2] [3] [4] [5] [6] [7] [8] [9]
|
|
- - 20.53 3.97 2.00 2.00 - 20.53 4.97 -
|
|
|
|
Resource pressure by instruction:
|
|
[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] Instructions:
|
|
- - - - - 1.00 - - - - movslq (%rsi,%rdx,4), %rdi
|
|
- - - 0.98 - - - 0.02 - - leaq (%rdi,%rdi,2), %rdi
|
|
- - - - - - - - 1.00 - shlq $5, %rdi
|
|
- - - 1.00 1.00 - - - - - vmovupd (%rcx,%rdi), %zmm16
|
|
- - - 0.99 0.01 0.99 - 0.01 - - vinsertf64x4 $1, (%rcx,%rdi), %zmm16, %zmm17
|
|
- - 0.01 0.98 0.99 0.01 - 0.01 - - vbroadcastf64x4 64(%rcx,%rdi), %zmm18
|
|
- - - - - - - 1.00 - - vshuff64x2 $238, %zmm16, %zmm16, %zmm16
|
|
- - 0.01 - - - - 0.99 - - vsubps %zmm17, %zmm6, %zmm19
|
|
- - 0.50 - - - - 0.50 - - vsubps %zmm16, %zmm10, %zmm20
|
|
- - 0.02 - - - - 0.98 - - vsubps %zmm18, %zmm12, %zmm21
|
|
- - 0.49 - - - - 0.51 - - vsubps %zmm17, %zmm9, %zmm17
|
|
- - 0.02 - - - - 0.98 - - vsubps %zmm18, %zmm14, %zmm18
|
|
- - 0.98 - - - - 0.02 - - vsubps %zmm16, %zmm11, %zmm16
|
|
- - 0.01 - - - - 0.99 - - vmulps %zmm21, %zmm21, %zmm22
|
|
- - 0.50 - - - - 0.50 - - vfmadd231ps %zmm20, %zmm20, %zmm22
|
|
- - 0.50 - - - - 0.50 - - vfmadd231ps %zmm19, %zmm19, %zmm22
|
|
- - - - - - - 1.00 - - vmulps %zmm18, %zmm18, %zmm23
|
|
- - 0.50 - - - - 0.50 - - vfmadd231ps %zmm16, %zmm16, %zmm23
|
|
- - 0.01 - - - - 0.99 - - vfmadd231ps %zmm17, %zmm17, %zmm23
|
|
- - 2.00 - - - - 1.00 - - vrcp14ps %zmm22, %zmm24
|
|
- - 2.00 - - - - 1.00 - - vrcp14ps %zmm23, %zmm25
|
|
- - - - - - - 1.00 - - vcmpltps %zmm0, %zmm22, %k2
|
|
- - - - - - - 1.00 - - vcmpltps %zmm0, %zmm23, %k1
|
|
- - 1.00 - - - - - - - vmulps %zmm29, %zmm24, %zmm22
|
|
- - - - - - - 1.00 - - vmulps %zmm24, %zmm24, %zmm23
|
|
- - 0.99 - - - - 0.01 - - vmulps %zmm29, %zmm25, %zmm26
|
|
- - 0.51 - - - - 0.49 - - vmulps %zmm22, %zmm23, %zmm22
|
|
- - 0.01 - - - - 0.99 - - vmulps %zmm25, %zmm25, %zmm23
|
|
- - 1.00 - - - - - - - vmulps %zmm26, %zmm23, %zmm23
|
|
- - 1.00 - - - - - - - vaddps %zmm2, %zmm22, %zmm26
|
|
- - 1.00 - - - - - - - vmulps %zmm24, %zmm1, %zmm24
|
|
- - - - - - - 1.00 - - vmulps %zmm22, %zmm24, %zmm22
|
|
- - 0.99 - - - - 0.01 - - vmulps %zmm26, %zmm22, %zmm22
|
|
- - 0.50 - - - - 0.50 - - vaddps %zmm2, %zmm23, %zmm24
|
|
- - 0.99 - - - - 0.01 - - vmulps %zmm25, %zmm1, %zmm25
|
|
- - 0.50 - - - - 0.50 - - vmulps %zmm23, %zmm25, %zmm23
|
|
- - 0.99 - - - - 0.01 - - vmulps %zmm24, %zmm23, %zmm23
|
|
- - 1.00 - - - - - - - vfmadd231ps %zmm19, %zmm22, %zmm13 {%k2}
|
|
- - - - - - - 1.00 - - vfmadd231ps %zmm20, %zmm22, %zmm8 {%k2}
|
|
- - 0.99 - - - - 0.01 - - vfmadd231ps %zmm21, %zmm22, %zmm5 {%k2}
|
|
- - 0.50 - - - - 0.50 - - vfmadd231ps %zmm17, %zmm23, %zmm15 {%k1}
|
|
- - 0.50 - - - - 0.50 - - vfmadd231ps %zmm16, %zmm23, %zmm7 {%k1}
|
|
- - 0.50 - - - - 0.50 - - vfmadd231ps %zmm18, %zmm23, %zmm4 {%k1}
|
|
- - - - - - - - 1.00 - incq %rdx
|
|
- - - 0.02 - - - - 0.98 - cmpq %rdx, %r12
|
|
- - - - - - - - 1.00 - jne .LBB2_11
|
|
- - 0.01 - - - - - 0.99 - jmp .LBB2_12
|