最新资讯

  • 【译】 款微软 MCP 服务器,加速您的开发工作流程

【译】 款微软 MCP 服务器,加速您的开发工作流程

2026-01-29 18:13:54 栏目:最新资讯 4 阅读

倥谠蓖骄KL

KL1:

大模型的KL一般是反向的:

K

L

(

π

θ

|

|

π

r

e

f

)

=

E

x

π

θ

(

?

|

o

<

t

)

l

o

g

π

θ

(

x

|

o

<

t

)

π

r

e

f

(

x

|

o

<

t

)

x

π

θ

(

?

|

o

<

t

)

代表 当前模型根据前t-1个token采样得到第t个token x

KL3(GRPO使用的无偏,低方差KL1估计) http://joschu.net/blog/kl-approx.html:

K

L

(

π

θ

|

|

π

r

e

f

)

=

E

x

π

θ

(

?

|

o

<

t

)

π

r

e

f

π

θ

?

l

o

g

(

π

r

e

f

π

θ

)

?

1

正向KL:倾向于使模型分布 Q 覆盖目标分布 P 的所有支持点,适合于需要模型分布更广泛覆盖的情况。

反向KL:倾向于使模型分布 Q 集中在目标分布 P 的高概率区域,适合于生成任务,能够提高生成样本的质量和稳定性。

因此,在大语言模型和生成任务中,反向KL通常更受青睐。

不同RL算法 loss的计算

对于q的第

i

个sample的第

t

个token的loss:

l

o

s

s

i

,

t

=

p

g

_

l

o

s

s

i

,

t

+

e

n

t

r

o

p

y

_

l

o

s

s

i

,

t

+

k

l

_

l

o

s

s

i

,

t

再对一个batch中所有的token loss

l

o

s

s

i

,

t

做聚合agg,得到这个batch的整体loss,可用于后续的反向传播和模型更新。

每个token的loss

p

g

_

l

o

s

s

i

,

t

k

l

_

l

o

s

s

i

,

t

loss agg mode

PPO

max

(

I

S

i

,

t

?

?

A

i

,

t

,

c

l

i

p

(

I

S

i

,

t

)

?

?

A

i

,

t

)

r

t

=

?

D

1

K

L

(

π

o

l

d

|

|

π

r

e

f

)

+

r

t

1

|

o

|

|

o

|

t

=

1

l

o

s

s

t

token-mean

Dual-clip PPO for A<0,

min

(

max

(

I

S

i

,

t

?

?

A

i

,

t

,

c

l

i

p

(

I

S

i

,

t

)

?

?

A

)

,

c

l

i

p

_

c

?

?

A

)

r

t

=

?

D

1

K

L

(

π

o

l

d

|

|

π

r

e

f

)

+

r

t

1

|

o

|

|

o

|

t

=

1

l

o

s

s

t

token-mean

GRPO

max

(

I

S

i

,

t

?

?

A

i

,

t

,

c

l

i

p

(

I

S

i

,

t

)

?

?

A

i

,

t

)

β

?

D

3

K

L

(

π

θ

|

|

π

r

e

f

)

1

G

G

i

=

1

1

|

o

i

|

|

o

i

|

t

=

1

l

o

s

s

i

,

t

seq-mean-token-mean

GSPO

I

S

i

,

t

=

s

g

[

π

θ

(

o

i

|

q

)

π

o

l

d

(

o

i

|

q

)

]

?

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

s

g

[

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

]

max

(

I

S

i

,

t

?

?

A

i

,

t

,

c

l

i

p

(

I

S

i

,

t

)

?

?

A

i

,

t

)

β

?

D

3

K

L

(

π

θ

|

|

π

r

e

f

)

1

G

G

i

=

1

1

|

o

i

|

|

o

i

|

t

=

1

l

o

s

s

i

,

t

seq-mean-token-mean

DAPO

max

(

I

S

i

,

t

?

?

A

i

,

t

,

c

l

i

p

(

I

S

i

,

t

)

?

?

A

i

,

t

)

β

?

D

3

K

L

(

π

θ

|

|

π

r

e

f

)

1

G

i

=

1

|

o

i

|

G

i

=

1

|

o

i

|

t

=

1

l

o

s

s

i

,

t

token-mean

PPO

优化目标:

J

=

E

o

π

o

l

d

1

|

o

|

|

o

|

i

=

1

[

min

(

π

θ

(

o

i

|

o

<

i

,

q

)

π

o

l

d

(

o

i

|

o

<

i

,

q

)

A

i

,

c

l

i

p

(

π

θ

(

o

i

|

o

<

i

,

q

)

π

o

l

d

(

o

i

|

o

<

i

,

q

)

,

1

?

?

,

1

+

?

)

A

i

]

优势: GAE

递推公式,t步的累积优势=t步的优势+ t+1步的累积优势=t步及之后 每一步的优势=t步及之后所有的奖励-第t步的预计奖励

A

t

=

(

r

t

+

γ

V

t

+

1

?

V

t

)

+

γ

A

t

+

1

A

t

=

T

i

=

t

γ

i

?

t

(

r

t

+

γ

V

t

+

1

?

V

t

)

A

t

=

r

t

+

γ

r

t

+

1

+

γ

2

r

t

+

2

+

.

.

.

+

γ

T

?

t

r

T

?

V

t

奖励:

r

t

=

{

?

K

L

(

π

o

l

d

|

|

π

r

e

f

)

,

t

T

?

K

L

(

π

o

l

d

|

|

π

r

e

f

)

+

R

M

(

q

,

o

i

)

,

t

=

T

verl/trainer/ppo/ray_trainer.py verl | 如何在奖励中添加KL惩罚项?

###################################################

# 将KL惩罚loss应用到reward中。原始的reward是[0, 0, 0, ..., RM(q,o_i)]

# return KL(pi_old||pi_{ref}) + reward

###################################################

def apply_kl_penalty(data: DataProto, kl_ctrl: core_algos.AdaptiveKLController, kl_penalty="kl"):

"""Apply KL penalty to the token-level rewards.

This function computes the KL divergence between the reference policy and current policy,

then applies a penalty to the token-level rewards based on this divergence.

Args:

data (DataProto): The data containing batched model outputs and inputs.

kl_ctrl (core_algos.AdaptiveKLController): Controller for adaptive KL penalty.

kl_penalty (str, optional): Type of KL penalty to apply. Defaults to "kl".

Returns:

tuple: A tuple containing:

- The updated data with token-level rewards adjusted by KL penalty

- A dictionary of metrics related to the KL penalty

"""

response_mask = data.batch["response_mask"]

token_level_scores = data.batch["token_level_scores"]

batch_size = data.batch.batch_size[0]

# compute kl between ref_policy and current policy

# When apply_kl_penalty, algorithm.use_kl_in_reward=True, so the reference model has been enabled.

kld = core_algos.kl_penalty(

data.batch["old_log_probs"], data.batch["ref_log_prob"], kl_penalty=kl_penalty

) # (batch_size, response_length)

kld = kld * response_mask

beta = kl_ctrl.value

token_level_rewards = token_level_scores - beta * kld

KL

K

L

(

π

o

l

d

|

|

π

r

e

f

)

=

l

o

g

(

π

o

l

d

(

o

t

|

q

,

o

<

t

)

π

r

e

f

(

o

t

|

q

,

o

<

t

)

)

PPO的KL散度是old到ref的

PPO的代码实现详见下面的Dual-clip PPO(PPO的改进版)

Dual-clip PPO

https://arxiv.org/pdf/1912.09729:对A<0的token的重要性采样IS做clip

image-20251020144504938

论文发现当A<0时,重要性采样的比值*A可以是负无穷,这会导致训练不稳定(梯度爆炸)的现象,因此在ppo的clip上,对于A<0又进一步添加了新的clip (clip_ratio_c)。

p

e

r

t

o

k

e

n

o

b

j

e

c

t

i

o

n

=

{

min

(

I

S

?

A

,

c

l

i

p

(

I

S

,

1

?

?

,

1

+

?

)

?

A

)

,

A

0

max

(

min

(

I

S

?

A

,

c

l

i

p

(

I

S

,

1

?

?

,

1

+

?

)

?

A

)

,

c

l

i

p

_

r

a

t

i

o

_

c

?

A

)

,

A

<

0

代码:

整体的ppo_loss是由pg_loss + kl_loss + entropy_loss构成,不同的RL方法pg_loss, kl_loss的计算方法是不同的。

pg_loss:具体于verl/trainer/ppo/core_algos.py(我将在dual-clip ppo和gspo部分介绍对应的pg_loss代码)。

kl_loss:同样位于verl/trainer/ppo/core_algos.py(我将会在grpo部分介绍具体的low_var_kl代码)。

verl/verl/workers/roles/utils/losses.py: ppo_loss的计算

######################################################

# 此函数用于计算整体的actor loss

######################################################

def ppo_loss(config: ActorConfig, model_output, data: TensorDict, dp_group=None):

log_prob = model_output["log_probs"]

entropy = model_output.get("entropy", None)

log_prob = no_padding_2_padding(log_prob, data) # (bsz, response_length)

if entropy is not None:

entropy = no_padding_2_padding(entropy, data) # (bsz, response_length)

metrics = {}

response_mask = data["response_mask"].to(bool)

# compute policy loss

old_log_prob = data["old_log_probs"]

advantages = data["advantages"]

loss_agg_mode = config.loss_agg_mode

loss_mode = config.policy_loss.get("loss_mode", "vanilla")

policy_loss_fn = get_policy_loss_fn(loss_mode)

# 调用下面的计算pg_loss的代码框

pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower = policy_loss_fn(

old_log_prob=old_log_prob,

log_prob=log_prob,

advantages=advantages,

response_mask=response_mask,

loss_agg_mode=loss_agg_mode,

config=config,

)

metrics.update(

{

"pg_loss": pg_loss.detach().item(),

"pg_clipfrac": pg_clipfrac.detach().item(),

"ppo_kl": ppo_kl.detach().item(),

"pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),

}

)

policy_loss = pg_loss

# 是否使用entropy loss

# add entropy loss

if entropy is not None:

entropy_loss = agg_loss(loss_mat=entropy, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)

entropy_coeff = config.entropy_coeff

# token的entropy越大越好,而loss是越小越好,因此是 减去 entropy

policy_loss -= entropy_coeff * entropy_loss

# 是否使用KL loss(grpo/gspo使用,ppo/dapo不使用)

# add kl loss

if config.use_kl_loss:

ref_log_prob = data["ref_log_prob"]

# compute kl loss

kld = kl_penalty(logprob=log_prob, ref_logprob=ref_log_prob, kl_penalty=config.kl_loss_type)

kl_loss = agg_loss(loss_mat=kld, loss_mask=response_mask, loss_agg_mode=config.loss_agg_mode)

policy_loss += kl_loss * config.kl_loss_coef

metrics["kl_loss"] = kl_loss.detach().item()

metrics["kl_coef"] = config.kl_loss_coef

return policy_loss, metrics

verl/trainer/ppo/core_algos.py不同的RL方法计算pg_loss是不同的,这里的是ppo的pg_loss,后面还会介绍gspo的pg_loss的实现。

######################################################

# 此函数用于计算pg_loss,并不计算KL惩罚项

######################################################

@register_policy_loss("vanilla") # type: ignore[arg-type]

def compute_policy_loss_vanilla(

old_log_prob: torch.Tensor,

log_prob: torch.Tensor,

advantages: torch.Tensor,

response_mask: torch.Tensor,

loss_agg_mode: str = "token-mean",

config: Optional[DictConfig | AlgoConfig] = None,

rollout_is_weights: torch.Tensor | None = None,

) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:

"""

Compute the clipped policy objective and related metrics for PPO.

Adapted from

https://github.com/huggingface/trl/blob/main/trl/trainer/ppo_trainer.py#L1122

Args:

old_log_prob (torch.Tensor):

Log-probabilities of actions under the old policy, shape (batch_size, response_length).

log_prob (torch.Tensor):

Log-probabilities of actions under the current policy, shape (batch_size, response_length).

advantages (torch.Tensor):

Advantage estimates for each action, shape (batch_size, response_length).

response_mask (torch.Tensor):

Mask indicating which tokens to include in the loss, shape (batch_size, response_length).

loss_agg_mode (str, optional):

Aggregation mode for `agg_loss`. Defaults to "token-mean".

config: `(verl.trainer.config.ActorConfig)`:

config for the actor.

rollout_log_probs: `(torch.Tensor)`:

log probabilities of actions under the rollout policy, shape (batch_size, response_length).

"""

assert config is not None

assert not isinstance(config, AlgoConfig)

clip_ratio = config.clip_ratio # Clipping parameter ε for standard PPO. See https://arxiv.org/abs/1707.06347.

clip_ratio_low = config.clip_ratio_low if config.clip_ratio_low is not None else clip_ratio

clip_ratio_high = config.clip_ratio_high if config.clip_ratio_high is not None else clip_ratio

clip_ratio_c = config.get( # Lower bound of the ratio for dual-clip PPO. See https://arxiv.org/pdf/1912.09729.

"clip_ratio_c", 3.0

)

cliprange = clip_ratio

cliprange_low = clip_ratio_low

cliprange_high = clip_ratio_high

assert clip_ratio_c > 1.0, (

"The lower bound of the clip_ratio_c for dual-clip PPO should be greater than 1.0,"

+ f" but get the value: {clip_ratio_c}."

)

# 计算每一个token的重要性采样的比值的log

# log(pi_{ heta}(o_{i,t}|q,o_{i,

negative_approx_kl = log_prob - old_log_prob

# 对IS的log做clip,避免过大或过小

# Clamp negative_approx_kl for stability

negative_approx_kl = torch.clamp(negative_approx_kl, min=-20.0, max=20.0)

# 这里ratio是真正的IS 重要性采样

ratio = torch.exp(negative_approx_kl)

# 计算出-IS在token-level上的均值

ppo_kl = verl_F.masked_mean(-negative_approx_kl, response_mask)

######################################################

# 下面开始计算pg_loss=

#A>0, max(ratio*-A, clip(ratio, 1-epsilon_low, 1+epsilon_high)*-A)

#A<0, min(max(ratio*-A, clip(ratio, 1-epsilon_low, 1+epsilon_high)*-A), clip_ratio_c*-A)

######################################################

pg_losses1 = -advantages * ratio

if cliprange_low is None:

cliprange_low = cliprange

if cliprange_high is None:

cliprange_high = cliprange

# clip后的loss

pg_losses2 = -advantages * torch.clamp(

ratio, 1 - cliprange_low, 1 + cliprange_high

) # - clip(ratio, 1-cliprange, 1+cliprange) * A

# ppo per token loss

clip_pg_losses1 = torch.maximum(

pg_losses1, pg_losses2

) # max(-ratio * A, -clip(ratio, 1-cliprange, 1+cliprange) * A)

# 计算被才剪掉的token在 这个batch的所有未mask的token的比例(axis=None)【常数】

pg_clipfrac = verl_F.masked_mean(torch.gt(pg_losses2, pg_losses1).float(), response_mask)

# 这里是dual-clip PPO提出,使用clip_ratio_c限制A<0的token的loss

pg_losses3 = -advantages * clip_ratio_c

# min(max(ratio*-A, clip(ratio, 1-epsilon_low, 1+epsilon_high)*-A), clip_ratio_c*-A)

clip_pg_losses2 = torch.min(pg_losses3, clip_pg_losses1)

# 记录在传统ppo下,进一步裁减的A<0的IS大于clip_ratio_c的token在 这个batch的所有未mask的token的比例【常数】

pg_clipfrac_lower = verl_F.masked_mean(

torch.gt(clip_pg_losses1, pg_losses3) * (advantages < 0).float(), response_mask

)

# pg_losses是分段函数(记录每个token的loss),A<0时用clip_pg_losses2, A>=0时用clip_pg_losses1

pg_losses = torch.where(advantages < 0, clip_pg_losses2, clip_pg_losses1)

# pg_losses: (bsz, response_length)

# 如何计算一整个batch的所有token的整体loss。这有多种方式,主要看配置的loss_agg_mode

pg_loss = agg_loss(loss_mat=pg_losses, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)

return pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower

咱们继续看几种token loss的agg mode。不同RL方法,loss agg mode也是不同的

verl/trainer/ppo/core_algos.py

def agg_loss(loss_mat: torch.Tensor, loss_mask: torch.Tensor, loss_agg_mode: str):

"""

Aggregate the loss matrix into a scalar.

Args:

loss_mat: `(torch.Tensor)`:

shape: (bs, response_length)

loss_mask: `(torch.Tensor)`:

shape: (bs, response_length)

loss_agg_mode: (str) choices:

method to aggregate the loss matrix into a scalar.

Returns:

loss: `a scalar torch.Tensor`

aggregated loss

"""

if loss_agg_mode == "token-mean":

loss = verl_F.masked_mean(loss_mat, loss_mask)

elif loss_agg_mode == "seq-mean-token-sum":

seq_losses = torch.sum(loss_mat * loss_mask, dim=-1) # token-sum

loss = torch.mean(seq_losses) # seq-mean

elif loss_agg_mode == "seq-mean-token-mean":

seq_losses = torch.sum(loss_mat * loss_mask, dim=-1) / torch.sum(loss_mask, dim=-1) # token-mean

loss = torch.mean(seq_losses) # seq-mean

elif loss_agg_mode == "seq-mean-token-sum-norm":

seq_losses = torch.sum(loss_mat * loss_mask, dim=-1)

loss = torch.sum(seq_losses) / loss_mask.shape[-1] # The divisor

# (loss_mask.shape[-1]) should ideally be constant

# throughout training to well-replicate the DrGRPO paper.

# TODO: Perhaps add user-defined normalizer argument to

# agg_loss to ensure divisor stays constant throughout.

else:

raise ValueError(f"Invalid loss_agg_mode: {loss_agg_mode}")

return loss

GRPO

优化目标:

J

=

E

{

o

i

}

G

i

=

1

π

o

l

d

(

?

|

q

)

1

|

G

|

|

G

|

i

=

1

1

|

o

|

|

o

i

|

t

=

1

{

min

[

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

π

o

l

d

(

o

i

,

t

|

q

,

o

i

,

<

t

)

A

i

,

t

,

c

l

i

p

(

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

π

o

l

d

(

o

i

,

t

|

q

,

o

i

,

<

t

)

,

1

?

?

,

1

+

?

)

A

i

,

t

]

?

β

D

K

L

(

π

θ

|

|

π

r

e

f

)

}

优势:

A

i

,

t

=

r

i

?

m

e

a

n

(

r

)

s

t

d

(

r

)

KL3

D

K

L

(

π

θ

|

|

π

r

e

f

)

=

π

r

e

f

(

o

i

,

t

|

q

,

o

i

,

<

t

)

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

?

l

o

g

(

π

r

e

f

(

o

i

,

t

|

q

,

o

i

,

<

t

)

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

)

?

1

KL3的方差比KL1小,且是KL1的无偏估计

证明

D

3

K

L

(

P

|

|

Q

)

=

x

P

P

(

x

)

[

Q

(

x

)

P

(

x

)

?

l

o

g

(

P

(

x

)

Q

(

x

)

)

?

1

]

=

x

P

Q

(

x

)

+

P

(

x

)

l

o

g

(

P

(

x

)

Q

(

x

)

)

?

P

(

x

)

=

x

P

Q

(

x

)

?

x

P

P

(

x

)

+

D

1

K

L

(

P

|

|

Q

)

=

D

1

K

L

(

P

|

|

Q

)

+

x

P

Q

(

x

)

?

1

P

Q

1

v

o

c

a

b

=

D

1

K

L

(

P

|

|

Q

)

verl/trainer/ppo/core_algos.py 下面是verl对kl_loss的实现:

def kl_penalty_forward(logprob: torch.FloatTensor, ref_logprob: torch.FloatTensor, kl_penalty) -> torch.FloatTensor:

"""Compute KL divergence given logprob and ref_logprob.

Copied from https://github.com/huggingface/trl/blob/main/trl/trainer/ppo_trainer.py#L1104

See more description in http://joschu.net/blog/kl-approx.html

Args:

logprob:

ref_logprob:

Returns:

kl_estimate

"""

if kl_penalty in ("kl", "k1"):

return logprob - ref_logprob

if kl_penalty == "abs":

return (logprob - ref_logprob).abs()

if kl_penalty in ("mse", "k2"):

return 0.5 * (logprob - ref_logprob).square()

##############################################################

# 这里的low_var_kl与上述的grpo的KL计算公式相同

##############################################################

# J. Schulman. Approximating kl divergence, 2020.

# # URL http://joschu.net/blog/kl-approx.html.

if kl_penalty in ("low_var_kl", "k3"):

kl = ref_logprob - logprob

# For numerical stability

kl = torch.clamp(kl, min=-20, max=20)

ratio = torch.exp(kl)

kld = (ratio - kl - 1).contiguous()

return torch.clamp(kld, min=-10, max=10)

if kl_penalty == "full":

# so, here logprob and ref_logprob should contain the logits for every token in vocabulary

raise NotImplementedError

raise NotImplementedError

GSPO

seq-level 优化目标:

J

=

E

{

o

i

}

G

i

=

1

π

o

l

d

(

?

|

q

)

1

|

G

|

|

G

|

i

=

1

min

[

(

π

θ

(

o

i

|

q

)

π

o

l

d

(

o

i

|

q

)

)

1

|

o

i

|

A

i

,

c

l

i

p

(

(

π

θ

(

o

i

|

q

)

π

o

l

d

(

o

i

|

q

)

)

1

|

o

i

|

,

1

?

?

,

1

+

?

)

A

i

]

π

θ

(

o

i

|

q

)

π

o

l

d

(

o

i

|

q

)

=

Π

|

o

i

|

t

=

1

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

Π

|

o

i

|

t

=

1

π

o

l

d

(

o

i

,

t

|

q

,

o

i

,

<

t

)

token-level 优化目标:

J

=

E

{

o

i

}

G

i

=

1

π

o

l

d

(

?

|

q

)

1

G

G

i

=

1

1

|

o

i

|

|

o

i

|

t

=

1

min

(

s

i

,

t

A

i

,

t

,

c

l

i

p

(

s

i

,

t

,

1

?

?

,

1

+

?

)

A

i

,

t

)

^

s

i

,

t

=

s

g

[

(

π

θ

(

o

i

|

q

)

π

o

l

d

(

o

i

|

q

)

)

1

|

o

i

|

]

?

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

s

g

[

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

]

可以发现的是

s

g

[

s

i

,

t

]

=

s

g

[

s

i

]

,

s

i

=

(

π

θ

(

o

i

|

q

)

π

o

l

d

(

o

i

|

q

)

)

1

|

o

i

|

,但是在方向上不同

通过证明,可以发现,当

A

i

,

t

=

A

i

时,seq-level和token-level在前向传播和反向传播上是一样的

token-level 可以更好地扩展 同sample不同token的A的灵活度(每个token的A可以不相同)

verl/trainer/ppo/core_algos.py

##########################################################

# 计算gspo的pg_loss,重点关注IS的计算

##########################################################

@register_policy_loss("gspo")

def compute_policy_loss_gspo(

old_log_prob: torch.Tensor,

log_prob: torch.Tensor,

advantages: torch.Tensor,

response_mask: torch.Tensor,

loss_agg_mode: str = "seq-mean-token-mean",

config: Optional[DictConfig | ActorConfig] = None,

rollout_is_weights: torch.Tensor | None = None,

) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:

"""

Compute the clipped policy objective and related metrics for GSPO.

See https://arxiv.org/pdf/2507.18071 for more details.

Args:

old_log_prob (torch.Tensor):

Log-probabilities of actions under the old policy, shape (batch_size, response_length).

log_prob (torch.Tensor):

Log-probabilities of actions under the current policy, shape (batch_size, response_length).

advantages (torch.Tensor):

Advantage estimates for each action, shape (batch_size, response_length).

response_mask (torch.Tensor):

Mask indicating which tokens to include in the loss, shape (batch_size, response_length).

loss_agg_mode (str, optional):

Aggregation mode for `agg_loss`. For GSPO, it is recommended to use "seq-mean-token-mean".

"""

assert config is not None

assert isinstance(config, ActorConfig)

clip_ratio_low = config.clip_ratio_low if config.clip_ratio_low is not None else config.clip_ratio

clip_ratio_high = config.clip_ratio_high if config.clip_ratio_high is not None else config.clip_ratio

negative_approx_kl = log_prob - old_log_prob

# compute sequence-level importance ratio:

# si(θ) = (π_θ(yi|x)/π_θold(yi|x))^(1/|yi|) =

# exp [(1/|y_i|) * Σ_t log(π_θ(y_i,t|x,y_i,

seq_lengths = torch.sum(response_mask, dim=-1).clamp(min=1)

negative_approx_kl_seq = torch.sum(negative_approx_kl * response_mask, dim=-1) / seq_lengths

# Combined ratio at token level:

# s_i,t(θ) = sg[s_i(θ)] · π_θ(y_i,t|x, y_i,

# In log space: log(s_i,t(θ)) = sg[log(s_i(θ))] + log_prob - sg[log_prob]

log_seq_importance_ratio = log_prob - log_prob.detach() + negative_approx_kl_seq.detach().unsqueeze(-1)

log_seq_importance_ratio = torch.clamp(log_seq_importance_ratio, max=10.0) # clamp for numerical stability

# finaly exp() to remove log

seq_importance_ratio = torch.exp(log_seq_importance_ratio)

pg_losses1 = -advantages * seq_importance_ratio

pg_losses2 = -advantages * torch.clamp(seq_importance_ratio, 1 - clip_ratio_low, 1 + clip_ratio_high)

pg_losses = torch.maximum(pg_losses1, pg_losses2)

# Apply rollout importance sampling weights if provided

if rollout_is_weights is not None:

pg_losses = pg_losses * rollout_is_weights

# for GSPO, we need to aggregate the loss at the sequence level (seq-mean-token-mean)

pg_loss = agg_loss(loss_mat=pg_losses, loss_mask=response_mask, loss_agg_mode="seq-mean-token-mean")

# For compatibility, return zero for pg_clipfrac_lower (not used in standard GSPO)

pg_clipfrac = verl_F.masked_mean(torch.gt(pg_losses2, pg_losses1).float(), response_mask)

pg_clipfrac_lower = torch.tensor(0.0, device=pg_loss.device)

ppo_kl = verl_F.masked_mean(-negative_approx_kl, response_mask)

return pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower

DAPO

优化目标:

J

=

E

(

q

,

a

)

D

,

{

o

i

}

G

i

=

1

π

o

l

d

(

?

|

q

)

[

1

G

i

=

1

|

o

i

|

G

i

=

1

|

o

i

|

t

=

1

min

(

r

i

,

t

(

θ

)

A

i

,

t

,

c

l

i

p

(

r

i

,

t

(

θ

)

,

1

?

?

l

o

w

,

1

+

?

h

i

g

h

)

A

i

,

t

)

]

s

.

t

.

0

<

|

{

o

i

|

i

s

_

e

q

u

i

v

a

l

e

n

t

(

o

i

,

a

)

}

|

<

G

其中

r

i

,

t

(

θ

)

=

π

θ

(

o

i

,

t

|

q

,

o

i

,

<

t

)

π

o

l

d

(

o

i

,

t

|

q

,

o

i

,

<

t

)

,

A

i

,

t

=

R

i

?

m

e

a

n

(

{

R

i

}

G

i

=

1

)

s

t

d

(

{

R

i

}

G

i

=

1

)

本文地址:https://www.yitenyun.com/2294.html

搜索文章

Tags

#服务器 #python #pip #conda #ios面试 #ios弱网 #断点续传 #ios开发 #objective-c #ios #ios缓存 #人工智能 #微信 #远程工作 #Trae #IDE #AI 原生集成开发环境 #Trae AI #kubernetes #笔记 #平面 #容器 #linux #学习方法 香港站群服务器 多IP服务器 香港站群 站群服务器 #运维 #学习 #分阶段策略 #模型协议 #银河麒麟高级服务器操作系统安装 #银河麒麟高级服务器V11配置 #设置基础软件仓库时出错 #银河麒高级服务器系统的实操教程 #生产级部署银河麒麟服务系统教程 #Linux系统的快速上手教程 #科技 #深度学习 #自然语言处理 #神经网络 #hadoop #hbase #hive #zookeeper #spark #kafka #flink #docker #华为云 #部署上线 #动静分离 #Nginx #新人首发 #fastapi #html #css #tcp/ip #网络 #qt #C++ #github #git #harmonyos #鸿蒙PC #物联网 #websocket #PyTorch #模型训练 #星图GPU #进程控制 #大数据 #职场和发展 #程序员创富 #gemini #gemini国内访问 #gemini api #gemini中转搭建 #Cloudflare #经验分享 #安卓 #Conda # 私有索引 # 包管理 #kylin #ARM服务器 # GLM-4.6V # 多模态推理 #低代码 #爬虫 #音视频 #开源 #arm #word #umeditor粘贴word #ueditor粘贴word #ueditor复制word #ueditor上传word图片 #unity #c# #游戏引擎 #数信院生信服务器 #Rstudio #生信入门 #生信云服务器 #语言模型 #大模型 #ai #ai大模型 #agent #飞牛nas #fnos #node.js #langchain #数据库 #MobaXterm #ubuntu #内网穿透 #cpolar #ci/cd #jenkins #gitlab #ssh #儿童书籍 #儿童诗歌 #童话故事 #经典好书 #儿童文学 #好书推荐 #经典文学作品 #flutter #开发语言 #云原生 #iventoy #VmWare #OpenEuler #ide #区块链 #测试用例 #生活 #后端 #前端 #nginx #serverless #diskinfo # TensorFlow # 磁盘健康 #Harbor #矩阵 #线性代数 #AI运算 #向量 #vscode #mobaxterm #计算机视觉 #RTP over RTSP #RTP over TCP #RTSP服务器 #RTP #TCP发送RTP #aws #云计算 #centos #svn #AI编程 #c++ #算法 #牛客周赛 #sql #AIGC #agi #android #腾讯云 #自动化 #ansible #分布式 #华为 #多个客户端访问 #IO多路复用 #回显服务器 #TCP相关API #openHiTLS #TLCP #DTLCP #密码学 #商用密码算法 #fabric #postgresql #缓存 #FTP服务器 #Reactor #javascript #vue上传解决方案 #vue断点续传 #vue分片上传下载 #vue分块上传下载 #http #项目 #高并发 #java-ee #文心一言 #AI智能体 #pytorch #PyCharm # 远程调试 # YOLOFuse #microsoft #php #java #jar #Dell #PowerEdge620 #内存 #硬盘 #RAID5 #windows #flask #企业开发 #ERP #项目实践 #.NET开发 #C#编程 #编程与数学 #iBMC #UltraISO #信息与通信 #程序人生 #科研 #博士 #pycharm #网络协议 #jmeter #功能测试 #软件测试 #自动化测试 #鸿蒙 #架构 #安全 #mcu #mysql #vue.js #es安装 #散列表 #哈希算法 #数据结构 #leetcode #uni-app #小程序 #notepad++ #风控模型 #决策盲区 #数学建模 #2026年美赛C题代码 #2026年美赛 #dify #spring boot #内存治理 #django #mvp #个人开发 #设计模式 #游戏 #蓝桥杯 #京东云 #性能优化 #DeepSeek #服务器繁忙 #AI #ecmascript #elementui #rocketmq #Ansible # 自动化部署 # VibeThinker #Ubuntu服务器 #硬盘扩容 #命令行操作 #VMware #web #webdav #课程设计 #计算机网络 #spring cloud #spring #json #golang #redis #jvm #mmap #nio #驱动开发 #prometheus #我的世界 #开源软件 #jetty #web安全 #udp #阻塞队列 #生产者消费者模型 #服务器崩坏原因 #数据仓库 #c语言 #MCP #MCP服务器 #鸭科夫 #逃离鸭科夫 #鸭科夫联机 #鸭科夫异地联机 #开服 #LLM #vim #gcc #yum #vllm #Streamlit #Qwen #本地部署 #AI聊天机器人 #rabbitmq #protobuf #DisM++ # 系统维护 #gpu算力 #阿里云 #语音识别 #设备驱动 #芯片资料 #网卡 #深度优先 #DFS #守护进程 #复用 #screen #大模型学习 #AI大模型 #大模型教程 #大模型入门 #全能视频处理软件 #视频裁剪工具 #视频合并工具 #视频压缩工具 #视频字幕提取 #视频处理工具 #企业微信 #Android #Bluedroid #Linux #TCP #线程 #线程池 #ffmpeg #智能手机 #everything #todesk #网络安全 #钉钉 #机器人 #单片机 #stm32 #嵌入式硬件 #需求分析 #scala #测试工具 #压力测试 #AI论文写作工具 #学术论文创作 #论文效率提升 #MBA论文写作 #信息可视化 #claude code #codex #code cli #ccusage #数据集 #adb #Ascend #MindIE #超算服务器 #算力 #高性能计算 #仿真分析工作站 #ModelEngine #数模美赛 #matlab #arm开发 #Modbus-TCP #里氏替换原则 #幼儿园 #园长 #幼教 #azure #编辑器 #金融 #mcp #金融投资Agent #Agent #ida #sizeof和strlen区别 #sizeof #strlen #计算数据类型字节数 #计算字符串长度 #中间件 #研发管理 #禅道 #禅道云端部署 #正则 #正则表达式 #n8n #DS随心转 #RAID #RAID技术 #磁盘 #存储 #iphone #STUN # TURN # NAT穿透 #AI写作 #unity3d #服务器框架 #Fantasy #elasticsearch #智能路由器 #transformer #机器学习 #程序员 #流量监控 #架构师 #系统架构 #软考 #系统架构师 #Canal #MC #凤希AI伴侣 #几何学 #拓扑学 #链表 #链表的销毁 #链表的排序 #链表倒置 #判断链表是否有环 #生信 #java大文件上传 #java大文件秒传 #java大文件上传下载 #java文件传输解决方案 #journalctl #wordpress #雨云 #LobeChat #vLLM #GPU加速 #RAG #全链路优化 #实战教程 #酒店客房管理系统 #毕设 #论文 #openresty #lua #测试流程 #金融项目实战 #P2P #webrtc #chatgpt #电脑 #SSH反向隧道 # Miniconda # Jupyter远程访问 #grafana #SSH Agent Forwarding # PyTorch # 容器化 #mcp server #AI实战 #流程图 #论文阅读 #论文笔记 #毕业设计 #wsl #L2C #勒让德到切比雪夫 #Coze工作流 #AI Agent指挥官 #多智能体系统 #asp.net大文件上传 #asp.net大文件上传下载 #asp.net大文件上传源码 #ASP.NET断点续传 #asp.net上传文件夹 #VS Code调试配置 #vue3 #天地图 #403 Forbidden #天地图403错误 #服务器403问题 #天地图API #部署报错 #ping通服务器 #读不了内网数据库 #bug菌问答团队 #SSH # ProxyJump # 跳板机 #数码相机 #epoll #高级IO #debian #面试 #asp.net #1024程序员节 #claude #LoRA # RTX 3090 # lora-scripts #FL Studio #FLStudio #FL Studio2025 #FL Studio2026 #FL Studio25 #FL Studio26 #水果软件 #react.js #ddos #fiddler #opencv #数据挖掘 #googlecloud #svm #amdgpu #kfd #ROCm #银河麒麟 #系统升级 #信创 #国产化 #银河麒麟操作系统 #openssh #华为交换机 #信创终端 #bash #振镜 #振镜焊接 #ai编程 #nas #whisper #llama #ceph #YOLO #ui #分类 #ssm #状态模式 #蓝耘智算 #若依 #quartz #框架 #版本控制 #Git入门 #开发工具 #代码托管 #搜索引擎 #目标检测 #C语言 #制造 #abtest #个人博客 #流量运营 #用户运营 #ONLYOFFICE #MCP 服务器 #ssl #迁移重构 #数据安全 #漏洞 #代码迁移 #嵌入式 #apache #tomcat #前端框架 #嵌入式编译 #ccache #distcc #oracle #esp32教程 #模版 #函数 #类 #笔试 #cursor #双指针 #spine #WEB #进程 #操作系统 #进程创建与终止 #shell #ollama #llm #laravel #CPU利用率 #RustDesk #IndexTTS 2.0 #本地化部署 #信号处理 #tcpdump #embedding #visual studio code #车辆排放 #数组 #目标跟踪 #SA-PEKS # 关键词猜测攻击 # 盲签名 # 限速机制 #流媒体 #NAS #飞牛NAS #监控 #NVR #EasyNVR #树莓派4b安装系统 #时序数据库 #社科数据 #数据分析 #数据统计 #经管数据 #我的世界服务器搭建 #minecraft #paddleocr #ESXi #Spring AI #STDIO协议 #Streamable-HTTP #McpTool注解 #服务器能力 #pencil #pencil.dev #设计 #Shiro #反序列化漏洞 #CVE-2016-4437 #运营 #sqlite #React安全 #漏洞分析 #Next.js #Playbook #AI服务器 #simulink #Triton # CUDA #selenium #产品经理 #团队开发 #墨刀 #figma #AB包 #智慧校园解决方案 #智慧校园一体化平台 #智慧校园选型 #智慧校园采购 #智慧校园软件 #智慧校园专项资金 #智慧校园定制开发 #海外服务器安装宝塔面板 #CFD #负载均衡 #SSH保活 #Miniconda #远程开发 #openlayers #bmap #tile #server #vue #HeyGem # 远程访问 # 服务器IP配置 #边缘计算 #简单数论 #埃氏筛法 #openEuler #Hadoop #MS #Materials #客户端 #DIY机器人工房 #vuejs #eBPF #.net #homelab #Lattepanda #Jellyfin #Plex #Emby #Kodi #nacos #银河麒麟aarch64 #uvicorn #uvloop #asgi #event #zabbix #信令服务器 #Janus #MediaSoup #TensorRT # Triton # 推理优化 #Jetty # CosyVoice3 # 嵌入式服务器 #autosar #建筑缺陷 #红外 #tensorflow #X11转发 #推荐算法 #SMTP # 内容安全 # Qwen3Guard #log #sqlserver #改行学it #创业创新 #北京百思可瑞教育 #百思可瑞教育 #北京百思教育 #tdengine #涛思数据 #ms-swift # 一锤定音 # 大模型微调 #deepseek #机器视觉 #6D位姿 #OBC #risc-v #cpp #SSH公钥认证 # 安全加固 #智能一卡通 #门禁一卡通 #梯控一卡通 #电梯一卡通 #消费一卡通 #一卡通 #考勤一卡通 #PowerBI #企业 #AI产品经理 #大模型开发 #Qwen3-14B # 大模型部署 # 私有化AI #求职招聘 #screen 命令 #大语言模型 #长文本处理 #GLM-4 #Triton推理 #macos #重构 #vp9 #支付 #远程桌面 #远程控制 #fpga开发 #LVDS #高速ADC #DDR # GLM-TTS # 数据安全 #Host #渗透测试 #SSRF #ip #微信小程序 #lvs #Gunicorn #WSGI #Flask #并发模型 #容器化 #Python #性能调优 #teamviewer #蓝湖 #Axure原型发布 #黑客技术 #网安应急响应 #计算机 # 目标检测 #微PE # GLM # 服务连通性 #音乐分类 #音频分析 #ViT模型 #Gradio应用 #鼠大侠网络验证系统源码 #ambari #单元测试 #集成测试 #Socket网络编程 #turn #游戏私服 #云服务器 #数据恢复 #视频恢复 #视频修复 #RAID5恢复 #流媒体服务器恢复 #muduo库 #uv #uvx #uv pip #npx #Ruff #pytest #milvus #springboot #知识库 #910B #昇腾 #LabVIEW知识 #LabVIEW程序 #LabVIEW功能 #labview #web server #请求处理流程 #框架搭建 #SRS #直播 #maven #intellij-idea #Anaconda配置云虚拟环境 #MQTT协议 #vivado license #Fluentd #Sonic #日志采集 #CVE-2025-68143 #CVE-2025-68144 #CVE-2025-68145 #html5 #C# # REST API # GLM-4.6V-Flash-WEB #chrome #RSO #机器人操作系统 #glibc #可信计算技术 #winscp #智能体 #restful #ajax #政务 #集成学习 #https #视频去字幕 #flume #powerbi #文生视频 #CogVideoX #AI部署 #Clawdbot #个人助理 #数字员工 #零代码平台 #AI开发 #UDP # 双因素认证 #rustdesk #p2p #连接数据库报错 #聚类 #OPCUA #环境搭建 #Docker #pandas #matplotlib #微服务 #源码 #闲置物品交易系统 #OSS #firefox #YOLOFuse # Base64编码 # 多模态检测 #IPv6 #DNS #堡垒机 #安恒明御堡垒机 #windterm #rust #scrapy #逻辑回归 #bootstrap #SPA #单页应用 #web3.py #Fun-ASR # 硬件配置 # 语音识别 #算力一体机 #ai算力服务器 #硬件工程 #系统安全 #青少年编程 #ipmitool #BMC #C #Karalon #AI Test #prompt #自动驾驶 #YOLOv8 # Docker镜像 #麒麟OS #国产开源制品管理工具 #Hadess #一文上手 #Rust #swagger #IndexTTS2 # 阿里云安骑士 # 木马查杀 #SMP(软件制作平台) #EOM(企业经营模型) #应用系统 #tornado #mamba #mariadb #项目申报系统 #项目申报管理 #项目申报 #企业项目申报 #wpf #JAVA #Java #LangGraph #CLI #JavaScript #langgraph.json #CMake #Make #C/C++ #pdf #策略模式 #reactjs #web3 # 高并发部署 #vps #Anything-LLM #IDC服务器 #私有化部署 #raid #raid阵列 #人脸识别 #人脸核身 #活体检测 #身份认证与人脸对比 #H5 #微信公众号 #1panel #vmware #贪心算法 #学术写作辅助 #论文创作效率提升 #AI写论文实测 #学习笔记 #jdk #eclipse #servlet #电气工程 #PLC # 水冷服务器 # 风冷服务器 #5G #汇编 #VoxCPM-1.5-TTS # 云端GPU # PyCharm宕机 #webpack #database #idea #typescript #npm #AI生成 # outputs目录 # 自动化 #翻译 #开源工具 #模型上下文协议 #MultiServerMCPC #load_mcp_tools #load_mcp_prompt #rdp #能源 #Dify #ARM架构 #鲲鹏 #esp32 arduino #ComfyUI # 推理服务器 #libosinfo #联机教程 #局域网联机 #局域网联机教程 #局域网游戏 #模拟退火算法 #虚拟机 #国产PLM #瑞华丽PLM #瑞华丽 #PLM #产品运营 #内存接口 # 澜起科技 # 服务器主板 #windows11 #系统修复 #结构与算法 #select #yolov12 #研究生life #Windows 更新 #文件传输 #电脑文件传输 #电脑传输文件 #电脑怎么传输文件到另一台电脑 #电脑传输文件到另一台电脑 #说话人验证 #声纹识别 #CAM++ #性能 #优化 #RAM #mongodb #扩展屏应用开发 #android runtime #HBA卡 #RAID卡 #其他 #TLS协议 #HTTPS #漏洞修复 #运维安全 #PTP_1588 #gPTP #Chat平台 # IndexTTS 2.0 # 远程运维 #Windows #RXT4090显卡 #RTX4090 #深度学习服务器 #硬件选型 #gitea #群晖 #音乐 #IntelliJ IDEA #Spring Boot #neo4j #NoSQL #SQL #考研 #软件工程 #idm #网站 #截图工具 #批量处理图片 #图片格式转换 #图片裁剪 #万悟 #联通元景 #镜像 #结构体 #TCP服务器 #开发实战 #海外短剧 #海外短剧app开发 #海外短剧系统开发 #短剧APP #短剧APP开发 #短剧系统开发 #海外短剧项目 #健身房预约系统 #健身房管理系统 #健身管理系统 #ThingsBoard MCP #可撤销IBE #服务器辅助 #私钥更新 #安全性证明 #双线性Diffie-Hellman #Android16 #音频性能实战 #音频进阶 #树莓派 #N8N #gateway #Comate #遛狗 #SSE # AI翻译机 # 实时翻译 #clickhouse #代理 #平板 #零售 #交通物流 #智能硬件 #cnn #CTF #计组 #数电 #导航网 #浏览器自动化 #python #r-tree #聊天小程序 #arm64 #无人机 #Deepoc #具身模型 #开发板 #未来 #串口服务器 #Modbus #MOXA #SSH免密登录 #服务器解析漏洞 #UOS #海光K100 #统信 #NFC #智能公交 #服务器计费 #FP-增长 #CANN #Proxmox VE #虚拟化 #硬件 # WebUI #CUDA #交互 #log4j #上下文工程 #langgraph #意图识别 #intellij idea #ESP32 #传感器 #MicroPython #3d #RK3576 #瑞芯微 #硬件设计 #数据采集 #浏览器指纹 #部署 #GPU服务器 #8U #硬件架构 #昇腾300I DUO #NPU #vnstat #c++20 #jupyter #edge #迭代器模式 #观察者模式 #twitter #cosmic #AutoDL #跨域 #发布上线后跨域报错 #请求接口跨域问题解决 #跨域请求代理配置 #request浏览器跨域 #运维开发 #opc ua #opc #线性回归 #UDP的API使用 #处理器 #黑群晖 #无U盘 #纯小白 #mybatis #指针 #anaconda #虚拟环境 #SSH跳板机 # Python3.11 #东方仙盟 #游戏机 #JumpServer #API限流 # 频率限制 # 令牌桶算法 #UDP套接字编程 #UDP协议 #网络测试 #知识 #JT/T808 #车联网 #车载终端 #模拟器 #仿真器 #开发测试 #mapreduce # ARM服务器 # 大模型推理 #存储维护 #论文复现 #screen命令 #分布式数据库 #集中式数据库 #业务需求 #选型误 #测评 # Connection refused #智能体来了 #智能体对传统行业冲击 #行业转型 #AI赋能 #系统管理 #服务 #管道Pipe #system V #excel #chat #hibernate #AI赋能盾构隧道巡检 #开启基建安全新篇章 #以注意力为核心 #YOLOv12 #AI隧道盾构场景 #盾构管壁缺陷病害异常检测预警 #隧道病害缺陷检测 #openclaw #门禁 #梯控 #智能梯控 #源代码管理 #elk # 高并发 #appche #AI技术 #YOLO26 #muduo #TcpServer #accept #高并发服务器 #SAP #ebs #metaerp #oracle ebs #AITechLab #cpp-python #CUDA版本 #连锁药店 #连锁店 #SSH跳转 #go #postman # IndexTTS # GPU集群 #服务器开启 TLS v1.2 #IISCrypto 使用教程 #TLS 协议配置 #IIS 安全设置 #服务器运维工具 #ARM64 # DDColor # ComfyUI #AI-native #dba #LangFlow # 轻量化镜像 # 边缘计算 #Ubuntu #ESP32编译服务器 #Ping #DNS域名解析 #YOLO11 #国产化OS #opc模拟服务器 #汽车 #面向对象 #weston #x11 #x11显示服务器 #taro #量子计算 #WinSCP 下载安装教程 #SFTP #FTP工具 #服务器文件传输 #计算几何 #斜率 #方向归一化 #叉积 #samba #copilot # 批量管理 #ASR #SenseVoice #硬盘克隆 #DiskGenius # keep-alive #媒体 #ArkUI #ArkTS #鸿蒙开发 #服务器线程 # SSL通信 # 动态结构体 #报表制作 #职场 #数据可视化 #用数据讲故事 #手机h5网页浏览器 #安卓app #苹果ios APP #手机电脑开启摄像头并排查 #语音生成 #TTS #Claude #clamav #IO #证书 #蓝牙 #LE Audio #BAP #JNI #CPU #CCE #Dify-LLM #Flexus #Nacos #命令模式 # 数字人系统 # 远程部署 #dubbo #宝塔面板部署RustDesk #RustDesk远程控制手机 #手机远程控制 #图像处理 #yolo #puppeteer #KMS #slmgr #Discord机器人 #云部署 #程序那些事 #高品质会员管理系统 #收银系统 #同城配送 #最好用的电商系统 #最好用的系统 #推荐的前十系统 #JAVA PHP 小程序 #ipv6 #TRO #TRO侵权 #TRO和解 #duckdb #运维工具 #智能家居 #POC #问答 #交付 #动态规划 #xlwings #Excel #自由表达演说平台 #演说 #移动端h5网页 #调用浏览器摄像头并拍照 #开启摄像头权限 #拍照后查看与上传服务器端 #摄像头黑屏打不开问题 #nfs #iscsi #cesium #可视化 #服务器IO模型 #非阻塞轮询模型 #多任务并发模型 #异步信号模型 #多路复用模型 # 黑屏模式 # TTS服务器 #前端开发 #领域驱动 #kmeans #寄存器 #文件IO #输入输出流 #文件管理 #文件服务器 #echarts #kong #Kong Audio #Kong Audio3 #KongAudio3 #空音3 #空音 #中国民乐 #范式 ##程序员和算法的浪漫 #scanf #printf #getchar #putchar #cin #cout #ET模式 #非阻塞 #H3C # 大模型 # 模型训练 #长文本理解 #glm-4 #推理部署 #Aluminium #Google #图像识别 #企业级存储 #网络设备 #iot #多模态 #微调 #超参 #LLamafactory #Smokeping #pve #排序算法 #排序 #Linux多线程 #Java程序员 #Java面试 #后端开发 #Spring源码 #Spring #SpringBoot #zotero #WebDAV #同步失败 #代理模式 #工具集 #大模型应用 #API调用 #PyInstaller打包运行 #服务端部署 #因果学习 #Langchain-Chatchat # 国产化服务器 # 信创 #软件 #本地生活 #电商系统 #商城 #RAGFlow #DeepSeek-R1 #欧拉 #CSDN #aiohttp #asyncio #异步 #麒麟 #游戏程序 #.netcore # 自动化运维 #儿童AI #图像生成 #pjsip #ICPC # 模型微调 #土地承包延包 #领码SPARK #aPaaS+iPaaS #数字化转型 #智能审核 #档案数字化 #农产品物流管理 #物流管理系统 #农产品物流系统 #农产品物流 #xss #paddlepaddle #实体经济 #商业模式 #软件开发 #数智红包 #商业变革 #创业干货 #Go并发 #高并发架构 #Goroutine #系统设计 #Tracker 服务器 #响应最快 #torrent 下载 #2026年 #Aria2 可用 #迅雷可用 #BT工具通用 #net core #kestrel #web-server #asp.net-core #Zabbix #CosyVoice3 #语音合成 #HistoryServer #Spark #YARN #jobhistory #ShaderGraph #图形 #VSCode # SSH #FASTMCP #ZooKeeper #ZooKeeper面试题 #面试宝典 #深入解析 #大模型部署 #mindie #大模型推理 #VMware Workstation16 #服务器操作系统 #业界资讯 #n8n解惑 # 显卡驱动备份 #EMC存储 #NetApp存储 #2026AI元年 #年度趋势 #多线程 #性能调优策略 #双锁实现细节 #动态分配节点内存 #markdown #建站 #游戏美术 #技术美术 #游戏策划 #用户体验 #eureka #AI智能棋盘 #Rock Pi S #广播 #组播 #并发服务器 #区间dp #二进制枚举 #图论 #x86_64 #数字人系统 #编程 #c++高并发 #百万并发 #Termux #Samba #SSH别名 #企业存储 #RustFS #对象存储 #高可用 #三维 #3D #三维重建 #asp.net上传大文件 #rtsp #转发 #ue5 #大学生 #大作业 #uip #信创国产化 #达梦数据库 #CVE-2025-61686 #路径遍历高危漏洞 #插入排序 #Llama-Factory #SMARC #ARM #全文检索 #TFTP #NSP #下一状态预测 #aigc # 代理转发 #性能测试 #LoadRunner #GPU ##租显卡 #进程等待 #wait #waitpid # 服务器IP # 端口7860 # HiChatBox # 离线AI #测试覆盖率 #可用性测试 #web服务器 # 公钥认证 #数字孪生 #三维可视化 # 远程开发 # Qwen3Guard-Gen-8B #工厂模式 # GPU租赁 # 自建服务器 #VibeVoice # 语音合成 # 云服务器 #devops #智慧城市 #A2A #GenAI #随机森林 #VMWare Tool #经济学 #MinIO服务器启动与配置详解 #WinDbg #Windows调试 #内存转储分析 #H5网页 #网页白屏 #H5页面空白 #资源加载问题 #打包部署后网页打不开 #HBuilderX #磁盘配额 #存储管理 #形考作业 #国家开放大学 #系统运维 #自动化运维 #AI+ #coze #AI入门 #插件 #DHCP #Node.js #漏洞检测 #CVE-2025-27210 #C++ UA Server #SDK #跨平台开发 #PyTorch 特性 #动态计算图 #张量(Tensor) #自动求导Autograd #GPU 加速 #生态系统与社区支持 #与其他框架的对比 #心理健康服务平台 #心理健康系统 #心理服务平台 #心理健康小程序 #cascadeur #设计师 #AI视频创作系统 #AI视频创作 #AI创作系统 #AI视频生成 #AI工具 #AI创作工具 #SSH复用 #Xshell #Finalshell #生物信息学 #组学 #GATT服务器 #蓝牙低功耗 #React #Next #CVE-2025-55182 #RSC #DAG #outlook #错误代码2603 #无网络连接 #2603 #注入漏洞 #nvidia #统信UOS #win10 #qemu #密码 #safari #b树 # ControlMaster #视觉检测 #visual studio #HarmonyOS #memory mcp #Cursor #网路编程 #vertx #vert.x #vertx4 #runOnContext #ngrok #IFix # 远程连接 #fs7TF #gRPC #注册中心 #Tokio #异步编程 #系统编程 #Pin #http服务器 #win11 #Buck #NVIDIA #交错并联 #DGX #机器人学习 # IP配置 # 0.0.0.0 #攻防演练 #Java web #红队 # 树莓派 # ARM架构 #galeweather.cn #高精度天气预报数据 #光伏功率预测 #风电功率预测 #高精度气象 #npu #memcache #大剑师 #nodejs面试题 #c #C2000 #TI #实时控制MCU #AI服务器电源 #TTS私有化 # 音色克隆 #勒索病毒 #勒索软件 #加密算法 #.bixi勒索病毒 #数据加密 #ranger #MySQL8.0 #GB28181 #SIP信令 #视频监控 #WT-2026-0001 #QVD-2026-4572 #smartermail #实时音视频 #贴图 #材质 #视频 #代理服务器 #webgl #星际航行 #agentic bi #编程助手 #娱乐 #敏捷流程 #Keycloak #Quarkus #AI编程需求分析 #雨云服务器 #Minecraft服务器 #教程 #MCSM面板 #Apple AI #Apple 人工智能 #FoundationModel #Summarize #SwiftUI #ARMv8 #内存模型 #内存屏障 #跳槽 #工作 #超时设置 #客户端/服务器 #网络编程 #挖矿 #Linux病毒 #sql注入 #canvas层级太高 #canvas遮挡问题 #盖住其他元素 #苹果ios手机 #安卓手机 #调整画布层级 #测速 #iperf #iperf3 #学术生涯规划 #CCF目录 #基金申请 #职称评定 #论文发表 #科研评价 #顶会顶刊 # 服务器配置 # GPU #华为od #华为机试 #react native #分子动力学 #化工仿真 #SEO优化 #Gateway #认证服务器集成详解 #ftp #sftp #uniapp #合法域名校验出错 #服务器域名配置不生效 #request域名配置 #已经配置好了但还是报错 #uniapp微信小程序 #节日 #Kuikly #openharmony #远程连接 #基础语法 #标识符 #常量与变量 #数据类型 #运算符与表达式 #地理 #遥感 #cpu #Socket #套接字 #I/O多路复用 #字节序 #工程设计 #预混 #扩散 #燃烧知识 #层流 #湍流 # 批量部署 # 键鼠锁定 #mtgsig #美团医药 #美团医药mtgsig #美团医药mtgsig1.2 #外卖配送 #主板 #总体设计 #电源树 #框图 #后端框架 #RWK35xx #语音流 #实时传输 #node #Archcraft #Linly-Talker # 数字人 # 服务器稳定性 #MCP服务器注解 #异步支持 #方法筛选 #声明式编程 #自动筛选机制 #实在Agent #pxe #榛樿鍒嗙被 #参数估计 #矩估计 #概率论 #传统行业 #glances #可再生能源 #绿色算力 #风电 #电子电气架构 #系统工程与系统架构的内涵 #Routine #麦克风权限 #访问麦克风并录制音频 #麦克风录制音频后在线播放 #用户拒绝访问麦克风权限怎么办 #uniapp 安卓 苹果ios #将音频保存本地或上传服务器 # child_process #人脸活体检测 #live-pusher #动作引导 #张嘴眨眼摇头 #苹果ios安卓完美兼容 #sentinel #gnu #AI应用编程 #dlms #dlms协议 #逻辑设备 #逻辑设置间权限 #r语言 #scikit-learn #安全威胁分析 #仙盟创梦IDE #GLM-4.6V-Flash-WEB # AI视觉 # 本地部署 #百度 #ueditor导入word #网络攻击模型 #pyqt #STDIO传输 #SSE传输 #WebMVC #WebFlux #TURN # WebRTC #Minecraft #PaperMC #我的世界服务器 #EN4FE #软件需求 #工业级串口服务器 #串口转以太网 #串口设备联网通讯模块 #串口服务器选型 #composer #symfony #java-zookeeper #vrrp #脑裂 #keepalived主备 #高可用主备都持有VIP #入侵 #日志排查 #coffeescript #ue4 #DedicatedServer #独立服务器 #专用服务器 #人大金仓 #Kingbase #AI大模型应用开发 #小艺 #搜索 #Spring AOP #就业 #gpt #多进程 #python技巧 #语义搜索 #嵌入模型 #Qwen3 #AI推理 #高考 #工程实践 #租显卡 #训练推理 #个性化推荐 #BERT模型 #API #wps #tcp/ip #网络 #轻量化 #低配服务器 #国产操作系统 #V11 #kylinos #电商 #KMS激活 #poll #numpy #高仿永硕E盘的个人网盘系统源码 #Syslog #系统日志 #日志分析 #日志监控 #Autodl私有云 #深度服务器配置 #VPS #搭建 #人脸识别sdk #视频编解码 #递归 #线性dp #挖漏洞 #攻击溯源 #stl #IIS Crypto #blender #warp #支持向量机 #文本生成 #CPU推理 #Prometheus #音诺ai翻译机 #AI翻译机 # Ampere Altra Max #sklearn #Puppet # IndexTTS2 # TTS #计算机毕业设计 #程序定制 #毕设代做 #课设 #交换机 #三层交换机 #高斯溅射 #统信操作系统 #人形机器人 #人机交互 #云开发 #个人电脑 #KMS 激活 #xml #MC群组服务器 #电梯 #电梯运力 #电梯门禁 #CS2 #debian13 #BoringSSL #域名注册 #新媒体运营 #网站建设 #国外域名 #gpu #nvcc #cuda #DDD #tdd #漏洞挖掘 #easyui #unix #Coturn #题解 #图 #dijkstra #迪杰斯特拉 #k8s #bond #服务器链路聚合 #网卡绑定 #数据报系统 # GPU服务器 # tmux #模块 #程序开发 #程序设计 # 权限修复 #ICE #idc # 鲲鹏 #SQL注入主机 #http头信息 #银河麒麟服务器系统 #智能制造 #供应链管理 #工业工程 #库存管理 #温湿度监控 #WhatsApp通知 #IoT #MySQL #文件上传漏洞 #RK3588 #RK3588J #评估板 #核心板 #嵌入式开发 #Kylin-Server #服务器安装 #短剧 #短剧小程序 #短剧系统 #微剧 # 智能运维 # 性能瓶颈分析 #空间计算 #原型模式 #nosql #戴尔服务器 #戴尔730 #装系统 #junit #bug #Cpolar #国庆假期 #服务器告警 #I/O模型 #并发 #水平触发、边缘触发 #多路复用 #数据访问 #vncdotool #链接VNC服务器 #如何隐藏光标 # 服务器IP访问 # 端口映射 #Moltbook #wireshark #网络安全大赛 #FHSS #resnet50 #分类识别训练 #CNAS #CMA #程序文件 #OpenManage #Spire.Office #隐私合规 #网络安全保险 #法律风险 #风险管理 #lucene #nodejs #云服务器选购 #Saas #mssql #算力建设 #Python3.11 #ETL管道 #向量存储 #数据预处理 #DocumentReader #HarmonyOS APP #esb接口 #走处理类报异常 #具身智能 #静脉曲张 #腿部健康 #clawdbot #SSH密钥 #练习 #基础练习 #循环 #九九乘法表 #计算机实现 #远程访问 #远程办公 #飞网 #安全高效 #配置简单 #dynadot #域名 #快递盒检测检测系统 #smtp #smtp服务器 #PHP #银河麒麟部署 #银河麒麟部署文档 #银河麒麟linux #银河麒麟linux部署教程 #声源定位 #MUSIC #FaceFusion # Token调度 # 显存优化 #WRF #WRFDA #windbg分析蓝屏教程 #公共MQTT服务器 #le audio #低功耗音频 #通信 #连接 #docker-compose # DIY主机 # 交叉编译 #网络配置实战 #Web/FTP 服务访问 #计算机网络实验 #外网访问内网服务器 #Cisco 路由器配置 #静态端口映射 #网络运维 #RPA #影刀RPA #AI办公 #单例模式 #懒汉式 #恶汉式 #ROS #安全架构 #路由器 #AI 推理 #NV #视觉理解 #Moondream2 #多模态AI #ServBay # OTA升级 # 黄山派 #内网 #CA证书 #ansys #ansys问题解决办法 # 网络延迟 #远程软件 #CS336 #Assignment #Experiments #TinyStories #Ablation #余行补位 #意义对谈 #余行论 #领导者定义计划 #rsync # 数据同步 #odoo #AE #rag #claudeCode #content7 #ossinsight # 串口服务器 # NPort5630 #卷积神经网络 #cocos2d #图形渲染 #OpenHarmony #Python办公自动化 #Python办公 #小智 #YOLO识别 #YOLO环境搭建Windows #YOLO环境搭建Ubuntu #期刊 #SCI #游戏服务器断线 # ms-swift #PN 结 #超算中心 #PBS #lsf #反向代理 #数据迁移 #语义检索 #向量嵌入 #boltbot #adobe #系统安装 #铁路桥梁 #DIC技术 #箱梁试验 #裂纹监测 #四点弯曲 #MinIO #express #cherry studio #gmssh #宝塔 #Exchange #free #vmstat #sar #强化学习 #策略梯度 #REINFORCE #蒙特卡洛 #L6 #L10 #L9 #AI Agent #开发者工具 #阿里云RDS #边缘AI # Kontron # SMARC-sAMX8 #okhttp #计算机外设 #remote-ssh #健康医疗 #AI应用 #bigtop #hdp #hue #kerberos #Qwen3-VL # 服务状态监控 # 视觉语言模型 #Beidou #北斗 #SSR #信息安全 #信息收集 #Tetrazine-Acid #1380500-92-4 #职场发展 #docker安装seata #隐函数 #常微分方程 #偏微分方程 #线性微分方程 #线性方程组 #非线性方程组 #复变函数 #生产服务器问题查询 #日志过滤 #UDP服务器 #recvfrom函数 #claude-code #VMware创建虚拟机 #高精度农业气象 #远程更新 #缓存更新 #多指令适配 #物料关联计划 #Ward #思爱普 #SAP S/4HANA #ABAP #NetWeaver # AI部署 #材料工程 #智能电视 #WAN2.2 #m3u8 #HLS #移动端H5网页 #APP安卓苹果ios #监控画面 直播视频流 #决策树 #4U8卡 AI 服务器 ##AI 服务器选型指南 #GPU 互联 #GPU算力 #DooTask #sglang #日志模块 #防毒面罩 #防尘面罩 #dash #UEFI #BIOS #Legacy BIOS # 服务器迁移 # 回滚方案 #开关电源 #热敏电阻 #PTC热敏电阻 #身体实验室 #健康认知重构 #系统思维 #微行动 #NEAT效应 #亚健康自救 #ICT人 #云计算运维 #效率神器 #办公技巧 #自动化工具 #Windows技巧 #打工人必备 #旅游 #西门子 #汇川 #Blazor #dreamweaver #晶振 #hdfs #华为od机试 #华为od机考 #华为od最新上机考试题库 #华为OD题库 #华为OD机试双机位C卷 #od机考题库 #运维 #夏天云 #夏天云数据 #实时检测 #AI工具集成 #容器化部署 #分布式架构 #rtmp #CMC #AI电商客服 #Matrox MIL #二次开发 #spring ai #oauth2 #nmodbus4类库使用教程 #防火墙 # 高温监控 #0day漏洞 #DDoS攻击 #漏洞排查 # 局域网访问 # 批量处理 #gerrit # 环境迁移 #基金 #股票 #xshell #host key #jquery #fork函数 #进程创建 #进程终止 #moltbot #session #JADX-AI 插件 #starrocks #运动 #LED #设备树 #GPIO #OpenAI #故障 #tekton #DuckDB #协议 #新浪微博 #传媒 #二值化 #Canny边缘检测 #轮廓检测 #透视变换 #Arduino BLDC #核辐射区域探测机器人 #esp32 #mosquito #2025年 #FRP #AI教程 #自动化巡检 #istio #服务发现