前言

[011]一个看似是系统问题的应用问题的解决过程[1]中我们解决了一个注册过多的BroadcastReceiver导致的某一次发送广播失败的问题。我这边遇到了一个类似的问题,但是我用了一个可能网络上从来没有提出过的方法,解决了这个问题,写下这个文章记录一下,如果三年前的我肯定想不出这种解决手段。

问题

简单看了一下log,发现和[011]一个看似是系统问题的应用问题的解决过程[2]的root cause是一样的,还是在这次发广播的Binder通信中无法申请足够的buffer。

 

1143 1297 W BroadcastQueue: Can't deliver broadcast to com.android.systemui (pid 2107). Crashing it.	
1143 1297 W BroadcastQueue: Failure sending broadcast Intent { act=android.intent.action.BATTERY_CHANGED flg=0x60000010 (has extras) } 	
1143 1297 W BroadcastQueue: android.os.DeadObjectException: Transaction failed on small parcel; remote process probably died	
1143 1297 W BroadcastQueue: at android.os.BinderProxy.transactNative(Native Method)	
1143 1297 W BroadcastQueue: at android.os.BinderProxy.transact(Binder.java:1129)	
1143 1297 W BroadcastQueue: at android.app.IApplicationThread$Stub$Proxy.scheduleRegisteredReceiver(IApplicationThread.java:1237)	
1143 1297 W BroadcastQueue: at com.android.server.am.BroadcastQueue.performReceiveLocked(BroadcastQueue.java:496)	
1143 1297 W BroadcastQueue: at com.android.server.am.BroadcastQueue.deliverToRegisteredReceiverLocked(BroadcastQueue.java:715)	
1143 1297 W BroadcastQueue: at com.android.server.am.BroadcastQueue.processNextBroadcastLocked(BroadcastQueue.java:875)	
1143 1297 W BroadcastQueue: at com.android.server.am.BroadcastQueue.processNextBroadcast(BroadcastQueue.java:834)	
1143 1297 W BroadcastQueue: at com.android.server.am.BroadcastQueue$BroadcastHandler.handleMessage(BroadcastQueue.java:172)	
1143 1297 W BroadcastQueue: at android.os.Handler.dispatchMessage(Handler.java:106)	
1143 1297 W BroadcastQueue: at android.os.Looper.loop(Looper.java:193)	
1143 1297 W BroadcastQueue: at android.os.HandlerThread.run(HandlerThread.java:65)	
1143 1297 W BroadcastQueue: at com.android.server.ServiceThread.run(ServiceThread.java:44)	
1143 1297 W BroadcastQueue: Can't deliver broadcast to com.android.systemui (pid 2107). Crashing it.

初步分析

首先我按照之前解决问题的思路,看systemui是否注册了过多的BATTERY_CHANGED的广播,但是排查了好多遍代码,好像systemui并没有注册过多的广播,这条路走不通。

查看内存信息

通过反复的测试,我发现systemui中存在大量的Local Binder,这个代表systemui创建了2207个Binder的Server端,这明显是不正常的。

 

** MEMINFO in pid 2558 [com.android.systemui] **	
 Objects	
               Views:     4976         ViewRootImpl:        5	
         AppContexts:      201           Activities:        1	
              Assets:       21        AssetManagers:        0	
       Local Binders:     2207        Proxy Binders:      267	
       Parcel memory:       91         Parcel count:      434	
    Death Recipients:      196      OpenSSL Sockets:        0	
            WebViews:        0

如果找到Binder对象莫名增长的原因?

方案1:抓Hprof的文件

通过抓Hprof的文件,想查看Binder这个类的引用名,发现都是临时变量,并没有引用名,这条路走不通。

方案2:纯看代码

由于这个模块不是我负责的,我也不是特别熟悉,这条路也走不通

重要发现

正当我一筹莫展的时候,同事发现反复进行某个操作的时候,会导致Binder增加,这个给了我一些线索,这个时候其实如果去反复看这个操作的代码,我相信肯定可以找到原因,但是这个也只是把大海捞针变成了游泳池捞针,还是挺费时间的,对于代码不熟悉的我来说,这个难度有点大。

#这样的Binder对象对系统有威胁吗?假如我按照以下的代码,创建多个Binder对象,其实对系统没有威胁,因为这样子的Binder对象并不会在Binder驱动中创建Binder Node,说白了就是一个普通类,其他进程并不会持有这个Binder的BinderProxy对象。

 

while(true) {	
    Binder binder = new Binder();	
}

怎么的Binder对象对系统有威胁?

首先我们可以确认,systemui创建的Binder对象肯定是匿名的Binder对象,匿名的Binder对象只有通过Binder的接口传递的时候才会创建Binder Node,这样子才有威胁。既然要通过Binder的接口,必定要走以下代码,所以我在下面加了这个Debug Log,我前面所说的关键方法,这个Debug Log。

 

Parcel.java	
public final void writeStrongBinder(IBinder val) {	
    if(Binder.getCallingUid() == 10049) {//10049是systemui的uid	
       android.util.Log.v("kobewang", "writeStrongBinder", new Exception("kobewang"));	
    }	
    nativeWriteStrongBinder(mNativePtr, val);	
}

发现了异常的log

从下面的异常堆栈,发现一个问题不管是addCallback,还是removeCallback,都会调用registerSoftApCallback,这不是明显的错误了吗,不应该是removeCallback调用unregisterSoftApCallback才对嘛。

 

kobewang: writeStrongBinder	
kobewang: java.lang.Exception: kobewang	
kobewang:     at android.os.Parcel.writeStrongBinder(Parcel.java:738)	
kobewang:     at android.net.wifi.IWifiManager$Stub$Proxy.registerSoftApCallback(IWifiManager.java:2341)	
kobewang:     at android.net.wifi.WifiManager.registerSoftApCallback(WifiManager.java:2664)	
kobewang:     at com.android.systemui.statusbar.policy.HotspotControllerImpl.updateWifiStateListeners(HotspotControllerImpl.java:128)	
kobewang:     at com.android.systemui.statusbar.policy.HotspotControllerImpl.addCallback(HotspotControllerImpl.java:94)	
kobewang:     at com.android.systemui.statusbar.policy.HotspotControllerImpl.addCallback(HotspotControllerImpl.java:35)	
kobewang:     at com.android.systemui.qs.tiles.HotspotTile.handleSetListening(HotspotTile.java:84)	
kobewang:     at com.android.systemui.qs.tileimpl.QSTileImpl.handleSetListeningInternal(QSTileImpl.java:401)	
kobewang:     at com.android.systemui.qs.tileimpl.QSTileImpl.access$700(QSTileImpl.java:70)	
kobewang:     at com.android.systemui.qs.tileimpl.QSTileImpl$H.handleMessage(QSTileImpl.java:544)	
kobewang:     at android.os.Handler.dispatchMessage(Handler.java:106)	
kobewang:     at android.os.Looper.loop(Looper.java:193)	
kobewang:     at android.os.HandlerThread.run(HandlerThread.java:65)	
kobewang: writeStrongBinder	
kobewang: java.lang.Exception: kobewang	
kobewang:     at android.os.Parcel.writeStrongBinder(Parcel.java:738)	
kobewang:     at android.net.wifi.IWifiManager$Stub$Proxy.registerSoftApCallback(IWifiManager.java:2341)	
kobewang:     at android.net.wifi.WifiManager.registerSoftApCallback(WifiManager.java:2664)	
kobewang:     at com.android.systemui.statusbar.policy.HotspotControllerImpl.updateWifiStateListeners(HotspotControllerImpl.java:128)	
kobewang:     at com.android.systemui.statusbar.policy.HotspotControllerImpl.removeCallback(HotspotControllerImpl.java:105)	
kobewang:     at com.android.systemui.statusbar.policy.HotspotControllerImpl.removeCallback(HotspotControllerImpl.java:35)	
kobewang:     at com.android.systemui.qs.tiles.HotspotTile.handleSetListening(HotspotTile.java:88)	
kobewang:     at com.android.systemui.qs.tileimpl.QSTileImpl.handleSetListeningInternal(QSTileImpl.java:407)	
kobewang:     at com.android.systemui.qs.tileimpl.QSTileImpl.access$700(QSTileImpl.java:70)	
kobewang:     at com.android.systemui.qs.tileimpl.QSTileImpl$H.handleMessage(QSTileImpl.java:544)	
kobewang:     at android.os.Handler.dispatchMessage(Handler.java:106)	
kobewang:     at android.os.Looper.loop(Looper.java:193)	
kobewang:     at android.os.HandlerThread.run(HandlerThread.java:65)

代码分析

从代码中可以发现removeCallback方法中updateWifiStateListeners(!mCallbacks.isEmpty());是有问题的。他这样子写代码会导致removeCallback,最后走的也是registerSoftApCallback。

 

frameworks/base/packages/SystemUI/src/com/android/systemui/statusbar/policy/HotspotControllerImpl.java	

	
   @Override	
    public void addCallback(Callback callback) {	
        synchronized (mCallbacks) {	
            if (callback == null || mCallbacks.contains(callback)) return;	
            if (DEBUG) Log.d(TAG, "addCallback " + callback);	
            mCallbacks.add(callback);	
            updateWifiStateListeners(!mCallbacks.isEmpty());	
        }	
    }	

	
    @Override	
    public void removeCallback(Callback callback) {	
        if (callback == null) return;	
        if (DEBUG) Log.d(TAG, "removeCallback " + callback);	
        synchronized (mCallbacks) {	
            mCallbacks.remove(callback);	
            //问题点:如果mCallbacks永远存在一个callback,	
            //那么!mCallbacks.isEmpty()就永远是true。	
            updateWifiStateListeners(!mCallbacks.isEmpty());	
        }	
    }	

	
    private void updateWifiStateListeners(boolean shouldListen) {	
        mWifiStateReceiver.setListening(shouldListen);	
        if (shouldListen) {	
            //永远只会走registerSoftApCallback	
            mWifiManager.registerSoftApCallback(	
                    this,	
                    Dependency.get(Dependency.MAIN_HANDLER));	
        } else {	
            mWifiManager.unregisterSoftApCallback(this);	
        }	
    }

查看了registerSoftApCallback的代码,发现这个接口,会创建不止一个Binder对象,而是两个Binder对象,一个Binder,一个SoftApCallbackProxy。

 

    public void registerSoftApCallback(@NonNull SoftApCallback callback,	
                                       @Nullable Handler handler) {	
        if (callback == null) throw new IllegalArgumentException("callback cannot be null");	
        Log.v(TAG, "registerSoftApCallback: callback=" + callback + ", handler=" + handler);	

	
        Looper looper = (handler == null) ? mContext.getMainLooper() : handler.getLooper();	
        Binder binder = new Binder();//一个binder对象	
        try {	
            //SoftApCallbackProxy也是一个Binder对象	
            mService.registerSoftApCallback(binder, new SoftApCallbackProxy(looper, callback),	
                    callback.hashCode());	
        } catch (RemoteException e) {	
            throw e.rethrowFromSystemServer();	
        }	
    }

总结

其实这是一个android 9.0的原生bug,所以有时候谷歌工程师也会犯错误,那如果来解决这个问题,其实这个问题已经在android 10上被谷歌工程师修复了,修复的方式,由于保密协议,我无法贴出android 10的代码,等代码正式释放了,你们可以看看如何修复这个问题,当然你们自己也可以想想如何解决这个bug,其实也不是特别难。

PS

经过解决了两个Binder申请buffer失败的问题,我觉得最近几年持续不断的研究Binder驱动是非常值得的,换做2年前的我,可能就会和测试扯皮了,让他monitor这些问题,然后然后最后无法复现或者低概率,这个bug就被close掉了。当然我现在还会遇到一些低概率input ANR难以解决的问题,以我现在的水平,还是无法解决这类问题,我相信在我不断的学习之下,肯定最后会被我攻克的。

应用开发的建议

1.register和unregister一定要成对出现

2.对于注册callback到system_server进程,一定要注意,因为一般这种callback就是一个binder对象,所以最好注册一次,如果多处代码需要注册这个callback,请在通过你的应用层注册一个callbackmanager到system_server,然后其他callback,都注册到你的callbackmanager,这样子system_server和你的应用跨进程通信就只需要一次。

References

 

如何解决Binder泄漏问题_Binder