改天研究一下貌似GCC生成的汇编效率很渣

wfoo2015-06-23 15:31

gcc -O2 -msse3 -S a.c -m64

程序代码：

    .file    "a.c"
    .section    .rodata.str1.1,"aMS",@progbits,1
.LC4:
    .string    "%f, %f\n"
.LC5:
    .string    "%10e\n"
    .section    .text.unlikely,"ax",@progbits
.LCOLDB6:
    .section    .text.startup,"ax",@progbits
.LHOTB6:
    .p2align 4,,15
    .globl    main
    .type    main, @function
main:
.LFB11:
    .cfi_startproc
    pushq    %rbx
    .cfi_def_cfa_offset 16
    .cfi_offset 3, -16
    subq    $16, %rsp
    .cfi_def_cfa_offset 32
    call    clock
    pxor    %xmm2, %xmm2
    movl    $1000, %ecx
    cvtsi2sdq    %rax, %xmm2
    movl    $1, %eax
    movsd    %xmm2, (%rsp)
    .p2align 4,,10
    .p2align 3
.L2:
    movl    $1000000, %edx
    .p2align 4,,10
    .p2align 3
.L3:
    leal    -250(%rax,%rax,4), %eax
    sall    $2, %eax
    subl    $1, %edx
    jne    .L3
    subl    $1, %ecx
    jne    .L2
    pxor    %xmm0, %xmm0
    movsd    .LC2(%rip), %xmm1
    cvtsi2sd    %eax, %xmm0
    addsd    .LC0(%rip), %xmm0
    cvtsd2ss    %xmm0, %xmm0
    cvtss2sd    %xmm0, %xmm0
    subsd    .LC1(%rip), %xmm0
    cvtsd2ss    %xmm0, %xmm0
    cvtss2sd    %xmm0, %xmm0
    mulsd    %xmm1, %xmm0
    cvtsd2ss    %xmm0, %xmm0
    cvtss2sd    %xmm0, %xmm0
    mulsd    %xmm1, %xmm0
    movsd    %xmm0, 8(%rsp)
    call    clock
    movsd    8(%rsp), %xmm0
    movq    %rax, %rbx
    movl    $.LC4, %edi
    movl    $2, %eax
    movapd    %xmm0, %xmm1
    divsd    .LC3(%rip), %xmm1
    call    printf
    pxor    %xmm0, %xmm0
    movl    $.LC5, %edi
    movl    $1, %eax
    cvtsi2sdq    %rbx, %xmm0
    subsd    (%rsp), %xmm0
    call    printf
    addq    $16, %rsp
    .cfi_def_cfa_offset 16
    xorl    %eax, %eax
    popq    %rbx
    .cfi_def_cfa_offset 8
    ret
    .cfi_endproc
.LFE11:
    .size    main, .-main
    .section    .text.unlikely
.LCOLDE6:
    .section    .text.startup
.LHOTE6:
    .section    .rodata.cst8,"aM",@progbits,8
    .align 8
.LC0:
    .long    1889785610
    .long    1081265725
    .align 8
.LC1:
    .long    -1202590843
    .long    1082312478
    .align 8
.LC2:
    .long    -1030792151
    .long    1079425269
    .align 8
.LC3:
    .long    -2061584302
    .long    1078718955
    .ident    "GCC: (Debian 4.9.2-10) 4.9.2"
    .section    .note.GNU-stack,"",@progbits

用同样的参数clang -O2 -msse3 -S a.c -m64,循环部分感觉要好些。
不过gcc是4.9,可能用5.1的优化会好些。

程序代码：

    .text
    .file    "a.c"
    .section    .rodata.cst8,"aM",@progbits,8
    .align    8
.LCPI0_0:
    .quad    4644000929050515210     # double 300.88999999999999
.LCPI0_1:
    .quad    -4574875336699679867    # double -600.88999999999999
.LCPI0_2:
    .quad    4636096232095177769     # double 90.89
.LCPI0_3:
    .quad    4633062635533678674     # double 55.890000000000001
    .text
    .globl    main
    .align    16, 0x90
    .type    main,@function
main:                                   # @main
    .cfi_startproc
# BB#0:
    pushq    %rbp
.Ltmp0:
    .cfi_def_cfa_offset 16
    pushq    %rbx
.Ltmp1:
    .cfi_def_cfa_offset 24
    subq    $24, %rsp
.Ltmp2:
    .cfi_def_cfa_offset 48
.Ltmp3:
    .cfi_offset %rbx, -24
.Ltmp4:
    .cfi_offset %rbp, -16
    movl    $1, %ebx
    xorl    %ebp, %ebp
    callq    clock
    .align    16, 0x90
.LBB0_1:                                # %.preheader
                                        # =>This Loop Header: Depth=1
                                        #     Child Loop BB0_2 Depth 2
    movl    $1000000, %ecx          # imm = 0xF4240
    .align    16, 0x90
.LBB0_2:                                #   Parent Loop BB0_1 Depth=1
                                        # =>  This Inner Loop Header: Depth=2
    imull     $3200000, %ebx         # imm = 0x30D400
    addl    $-168421000, %ebx       # imm = 0xFFFFFFFFF5F61978
    addl    $-5, %ecx
    jne    .LBB0_2
# BB#3:                                 #   in Loop: Header=BB0_1 Depth=1
    incl    %ebp
    cmpl    $1000, %ebp             # imm = 0x3E8
    jne    .LBB0_1
# BB#4:
    cvtsi2sdq    %rax, %xmm0
    movsd    %xmm0, 16(%rsp)         # 8-byte Spill
    xorps    %xmm0, %xmm0
    cvtsi2sdl    %ebx, %xmm0
    addsd    .LCPI0_0(%rip), %xmm0
    cvtsd2ss    %xmm0, %xmm0
    cvtss2sd    %xmm0, %xmm0
    addsd    .LCPI0_1(%rip), %xmm0
    cvtsd2ss    %xmm0, %xmm0
    cvtss2sd    %xmm0, %xmm0
    movsd    .LCPI0_2(%rip), %xmm1
    mulsd    %xmm1, %xmm0
    cvtsd2ss    %xmm0, %xmm0
    cvtss2sd    %xmm0, %xmm0
    mulsd    %xmm1, %xmm0
    movsd    %xmm0, 8(%rsp)          # 8-byte Spill
    divsd    .LCPI0_3(%rip), %xmm0
    movsd    %xmm0, (%rsp)           # 8-byte Spill
    callq    clock
    xorps    %xmm0, %xmm0
    cvtsi2sdq    %rax, %xmm0
    subsd    16(%rsp), %xmm0         # 8-byte Folded Reload
    movsd    %xmm0, 16(%rsp)         # 8-byte Spill
    movl    $.L.str, %edi
    movb    $2, %al
    movsd    8(%rsp), %xmm0          # 8-byte Reload
    movsd    (%rsp), %xmm1           # 8-byte Reload
    callq    printf
    movl    $.L.str1, %edi
    movb    $1, %al
    movsd    16(%rsp), %xmm0         # 8-byte Reload
    callq    printf
    xorl    %eax, %eax
    addq    $24, %rsp
    popq    %rbx
    popq    %rbp
    retq
.Ltmp5:
    .size    main, .Ltmp5-main
    .cfi_endproc

    .type    .L.str,@object          # @.str
    .section    .rodata.str1.1,"aMS",@progbits,1
.L.str:
    .asciz    "%f, %f\n"
    .size    .L.str, 8

    .type    .L.str1,@object         # @.str1
.L.str1:
    .asciz    "%10e\n"
    .size    .L.str1, 6

    .ident    "Debian clang version 3.5.0-10 (tags/RELEASE_350/final) (based on LLVM 3.5.0)"
    .section    ".note.GNU-stack","",@progbits

[ 本帖最后由 wfoo 于 2015-6-23 15:35 编辑 ]

改天研究一下 貌似GCC生成的汇编效率很渣