shell执行命令时参数传递过程

考虑以下代码 main.c ：

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char *argv[], char *envp[])
{
    int i;
    argc += 0x88;
    printf("I am running here 0x%lx \n", argv);
    for (i = 0; i < argc; i ++) {
        printf("arg [%d]: %s \n", i, argv[i]);
    }
    for (char **env = envp; *env != 0; env++) {
        printf("env: %s \n", *env);
    }
    return 0;    
}

编译之后，运行:

gcc main.c -o main
VAR=VALUE ./main arg1 arg2

结果输出为:

/ # VAR=VALUE ./main arg1 arg2
I am running here 0x7ffda5290e68 
arg [0]: ./main 
arg [1]: arg1 
arg [2]: arg2 
env: SHLVL=2 
env: HOME=/ 
env: VAR=VALUE 
env: TERM=linux 
env: HOST=x86_64 
env: PWD=/

问题：包括环境变量在内的参数是如何最终传递到main函数里的？

大体上，参数传递分为三部分： 1. shell传递给内核的sys_execve系统调用 2. sys_execve系统调用放入新进程的栈中 3. ELF的入口函数逐步传递到main函数中

本文的测试环境为：Linux longcc 5.17.7-200.fc35.x86_64 #1 SMP PREEMPT Thu May 12 14:56:48 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

shell传递给内核的sys_execve系统调用

以bash代码为例，这部分的调用过程为 -> main -> reader_loop -> execute_command -> ... -> execve

execve的原型为: int execve(const char pathname, char const argv[], char *const envp[]);

shell构造参数的过程，这里就不记录了。

sys_execve系统调用放入新进程的栈中

这部分比较复杂，与Linux的ELF加载过程有关，本文的例子调用过程为： do_execve -> do_execveat_common -> bprm_execve -> exec_binprm -> search_binary_handler

当进入内核态的系统调用时，调用参数和环境变量的指针存储在内核页中，但对应的内容存储在用户态页中。

接着，通过copy_strings，所有的参数和环境变量被复制到bprm结构中，此时，所有的内容都存储在内核页中。

在后面的调用过程中，begin_new_exec将确保仅有一条线程，同时通过exec_mmap对内存地址空间进行替换，旧有的映射关系将被全部丢弃。

search_binary_handler需要按照文件格式，查找对应的加载函数，接下来的过程为： load_elf_binary -> start_thread

start_thread会进入ELF设置entry point执行， start_point的函数原型为: start_thread(struct pt_regs *regs, unsigned long new_ip, unsigned long new_sp)

进程的栈构造过程看load_elf_binary实现就比较清晰，大致结构如下:

    ------------------------------------------------------------- 0x7fff6c845000
     0x7fff6c844ff8: 0x0000000000000000
            _  4fec: './stackdump\0'                      <------+
      env  /   4fe2: 'ENVVAR2=2\0'                               |    <----+
           \_  4fd8: 'ENVVAR1=1\0'                               |   <---+ |
           /   4fd4: 'two\0'                                     |       | |     <----+
     args |    4fd0: 'one\0'                                     |       | |    <---+ |
           \_  4fcb: 'zero\0'                                    |       | |   <--+ | |
               3020: random gap padded to 16B boundary           |       | |      | | |
    - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -|       | |      | | |
               3019: 'x86_64\0'                        <-+       |       | |      | | |
     auxv      3009: random data: ed99b6...2adcc7        | <-+   |       | |      | | |
     data      3000: zero padding to align stack         |   |   |       | |      | | |
    . . . . . . . . . . . . . . . . . . . . . . . . . . .|. .|. .|       | |      | | |
               2ff0: AT_NULL(0)=0                        |   |   |       | |      | | |
               2fe0: AT_PLATFORM(15)=0x7fff6c843019    --+   |   |       | |      | | |
               2fd0: AT_EXECFN(31)=0x7fff6c844fec      ------|---+       | |      | | |
               2fc0: AT_RANDOM(25)=0x7fff6c843009      ------+           | |      | | |
      ELF      2fb0: AT_SECURE(23)=0                                     | |      | | |
    auxiliary  2fa0: AT_EGID(14)=1000                                    | |      | | |
     vector:   2f90: AT_GID(13)=1000                                     | |      | | |
    (id,val)   2f80: AT_EUID(12)=1000                                    | |      | | |
      pairs    2f70: AT_UID(11)=1000                                     | |      | | |
               2f60: AT_ENTRY(9)=0x4010c0                                | |      | | |
               2f50: AT_FLAGS(8)=0                                       | |      | | |
               2f40: AT_BASE(7)=0x7ff6c1122000                           | |      | | |
               2f30: AT_PHNUM(5)=9                                       | |      | | |
               2f20: AT_PHENT(4)=56                                      | |      | | |
               2f10: AT_PHDR(3)=0x400040                                 | |      | | |
               2f00: AT_CLKTCK(17)=100                                   | |      | | |
               2ef0: AT_PAGESZ(6)=4096                                   | |      | | |
               2ee0: AT_HWCAP(16)=0xbfebfbff                             | |      | | |
               2ed0: AT_SYSINFO_EHDR(33)=0x7fff6c86b000                  | |      | | |
    . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        | |      | | |
               2ec8: environ[2]=(nil)                                    | |      | | |
               2ec0: environ[1]=0x7fff6c844fe2         ------------------|-+      | | |
               2eb8: environ[0]=0x7fff6c844fd8         ------------------+        | | |
               2eb0: argv[3]=(nil)                                                | | |
               2ea8: argv[2]=0x7fff6c844fd4            ---------------------------|-|-+
               2ea0: argv[1]=0x7fff6c844fd0            ---------------------------|-+
               2e98: argv[0]=0x7fff6c844fcb            ---------------------------+
     0x7fff6c842e90: argc=3

事实上，当新进程从entry point开始执行时，此时的栈称为Initial process Stack。Initial process Stack的内存分布在此处进行了规定。

ELF的入口函数逐步传递到main函数中

这部分转递过程都是通过寄存器完成的，看汇编就很清晰了。如果ELF是动态链接的，大致过程为entry point of ld-linux -> _start(entry point of libc) -> __libc_start_main -> main 如果是静态链接的，则没有第一步interpreter的处理。

其中_start的参数，参考内核的start_thread

__libc_start_main的函数原型为: LIBC_START_MAIN (int (main) (int, char , char ** MAIN_AUXVEC_DECL), int argc, char *argv)

有意思的一个地方，main可以有不同的参数个数，生成的汇编也是不一样的。

拓展结论

如果通过某种手段劫持ELF的entry point，修改参数(env + arg)需要以下过程: 1. 重新设置stack结构，保留原内容的同时，塞入新参数 2. 修改进程的寄存器，确保entry point函数读取到的是新的SP 3. 修改mm_struct里的一堆参数，包括arg_start等等

大体上，就是重新实现了一遍create_aout_tables，这个思路与内核的实现高度耦合。